Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦
2026-04-13
AI for Personal——最懂你的 AI,只有你自己能造。2026 年 3 月,明略科技(港交所:2718.HK)在 GitHub 上開源了 Mano-P——一款專為邊緣設備設計的 GUI 智能體模型,圍繞隱私與個性化兩大支柱,讓每個人都能在自己的設備上擁有一雙 AI 的手。72B 模型屠榜,4B 蒸餾版上機。Mano-P 在 OSWorld 基準測試中以 58.2% 的成功率拿下專用模型全球第一,領先第二名超過 13 個百分點,并在 WebRetriever 等多項評測中超越千億參數級通用大模型。與當前主流的云端 GUI 智能體不同,Mano-P 可以完全在用戶自己的 Mac 上本地運行,屏幕截圖和任務數據不出設備。這款采用 Apache 2.0 協議的開源項目,正在重新定義 AI 操作電腦的方式。

Mano-P 是明略科技推出的開源 GUI 智能體項目。Mano 是西班牙語里“手”的意思,P 有兩重含義:Person(個體)與 Party(組織)——我們相信,無論個人還是企業,都能夠創造屬于自己的個性化 AI。其三階段開源計劃正在逐步釋放完整的技術棧:Phase 1 開源 CUA Skills,Phase 2 開源本地模型 + Python SDK,Phase 3 開源訓練方法 + 剪枝量化技術。
一句話概括:Mano-P 是一雙 AI 的手,能像人類一樣看屏幕、理解界面、操作電腦,而且完全跑在你自己的設備上。

和傳統 RPA(機器人流程自動化)相比,Mano-P 有本質區別:
| 維度 | 傳統 RPA | Mano-P |
| 工作方式 | 依賴 API 和預設規則 | 純視覺理解,像人一樣“看”界面 |
| 界面變化 | 界面改版需重新配置 | 自適應,理解語義而非像素坐標 |
| 覆蓋范圍 | 僅支持有 API 的系統 | 能操作任何人類可操作的軟件 |
| 遺留系統 | 無法處理老舊系統 | 通過視覺交互,無需 API 接口 |
| 部署方式 | 通常需要服務器 | 本地設備即可運行 |
Mano-P 不是一個概念產品——它的能力經過了權威基準測試的嚴格驗證。
| 基準測試 | Mano-P 成績 | 排名 | 說明 |
| OSWorld(專用模型) | 58.2% | 全球第一 | 領先第二名 OpenCUA-72b(45.0%)13.2 個百分點 |
| OSWorld(全部模型) | 58.2% | 第五 | 前四均為千億參數級通用大模型 |
| WebRetriever Protocol I | 41.7 NavEval | 全球第一 | 超越 Gemini 2.5 Pro(40.9)和 Claude 4.5 CU(31.3) |
| ScreenSpot-V2 | 93.5 | SOTA | GUI 元素定位精度 |
| MMBench | 87.5 | SOTA | 多模態理解綜合評測 |
| UI-Vision | 46.6 | SOTA | UI 視覺理解 |
| OS-World-G | 69.5 | SOTA | GUI Grounding 定位能力 |
| 端側推理(4B, M4 Pro) | 476 tokens/s 預填充 | — | 峰值內存 4.3GB,解碼 76 tokens/s |
一句話總結:72B 模型屠榜證明技術實力,蒸餾為 4B 上機證明日常可用。對于Mano-P來說,能力和便捷不是二選一。 經過專項訓練和優化的專用模型,在特定任務上完全可以比“大塊頭”更強。端側模型不等于弱模型。

在消費級設備上運行大參數模型做 GUI 操作,靠的是三項關鍵技術突破。
處理高分辨率屏幕截圖時,Mano-P 智能識別關鍵信息——保留界面結構骨架和重要 UI 元素,將視覺 Token 壓縮至 12.57%。打個比方:看一張復雜的屏幕截圖,普通模型會逐像素地“讀”完整張圖,而 Mano-P 只看最重要的 13%——按鈕在哪、輸入框在哪、當前選中了什么。推理速度提升數倍,任務成功率幾乎不受影響。
用更緊湊的方式存儲模型——權重用 4bit 存儲,激活值保留 16bit。效果:
傳統模型只做單向學習——你告訴它“點擊登錄按鈕”,它學會去找登錄按鈕。Mano-P 同時訓練兩個方向:“描述→定位”和“定位→描述”,通過循環一致性互相驗證——既能根據指令找到按鈕,也能看到按鈕說出它是什么。配合三階段漸進訓練(SFT → 離線 RL → 在線 RL),模型從“背操作手冊”進化到“真正學會操作界面”。
大多數人以為端側模型的核心賣點是“數據安全”。這沒錯,但更根本的原因是:云端 AI 不可能真正“主動”幫你。
真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了,自動幫你準備資料;看到你收到一封重要郵件,自動提醒你;發現常用的系統數據有異常,主動去核查。但這種“主動性”意味著 AI 要不停地自發運算——每隔幾分鐘檢查一次郵箱、日歷、文件。
在云端,每一次運算都消耗平臺的算力和費用。一個用戶一天可能產生上千次自發調用,乘以幾百萬用戶,服務器費用爆炸。所以云端平臺必然限制 AI 的主動性——不讓它太頻繁地自己動,因為每“主動”一次就是在燒平臺的錢。
端側模型從根本上解決了這個問題:AI 跑在你自己的設備上,用的是你自己的芯片和電。 它主動跑一萬次也不花平臺一分錢。這才是真正 7×24 貼身 AI 助手的唯一解。
Mano-P 提供本地模式和云端模式兩種推理方式。核心差異在于數據流向:
| 安全維度 | 本地模式 | 云端模式 |
| 推理位置 | Mac 本地 / 算力棒 | mano.mininglamp.com |
| 截圖數據 | ? 不出設備 | ?? 發送到云端分析 |
| 離線能力 | ? 完全離線可用 | ? 需要聯網 |
| 主動性 | ? 7×24 無限制運行 | ?? 受平臺成本限制 |
| 適用場景 | 高安全要求(金融/醫療/政務) | 一般場景 |
| 代碼審計 | ? 完整開源 | ? 完整開源 |
系統自動檢測本地模型配置:有本地模型用本地,沒有就自動切換云端,無縫銜接。對于金融、醫療、法律、政務等對數據安全有剛性要求的行業,本地模式不是可選項——是唯一選項。
| 使用形式 | 適合誰 | 安裝方式 | 特點 |
| mano-cua(命令行) | 開發者、高級用戶 | brew install mano-cua | 終端直接運行任務 |
| mano-client(Python SDK) | Python 開發者 | pip install mano-client(開發中) | 集成到現有項目,支持異步調用 |
| mano-skill(Agent 技能插件) | AI Agent 平臺用戶 | OpenClaw 插件安裝 | Agent 編排 + GUI 執行無縫銜接 |
運行時,屏幕右上角顯示狀態面板,實時顯示任務進度。敏感操作執行前會要求用戶確認——AI 干活,人類監督。
Mano-P 已經在多個場景中完成驗證:
場景 1:全自動化應用構建(Mano-afk)
系統接收自然語言需求后,自動完成需求澄清 → 技術架構設計 → 代碼生成 → 本地部署 → 多層測試(API 測試 + 視覺檢測 + 端到端 GUI 自動化測試)。測試不通過時自動定位根因、修復代碼、重新部署。全流程無需人工干預。
場景 2:商業視頻智能系統
從下發指令到視頻生成、上傳、分析、剪輯、二次評測的完整工作流。系統自主操作網頁與剪輯軟件,完成文件處理、字幕修改等精細操作,生成包含主客觀指標的分析報告。
場景 3:企業級長任務執行
支持 100+ 步驟的企業級業務流程自動化,包括跨應用數據錄入、系統間信息遷移、批量文檔處理等復雜任務,全程無需聯網。
Mano-P 采用 Apache 2.0 開源協議——寬松且附帶專利保護的開源協議,任何人和企業都可以自由使用、修改和商用,無傳染性限制,且自動授予專利許可——企業用了不會被專利訴訟。對投資人來說,這意味著生態壁壘不靠法律鎖定,而靠技術領先和社區信任。
分三個階段漸進開放完整技術棧。其三階段開源計劃正在逐步釋放完整的技術棧:
| 階段 | 開放內容 | 說明 | 狀態 |
| Phase 1(當前) | CUA Skills | GUI 操作的技能庫 | 已開源 |
| Phase 2 | 本地模型 + Python SDK | 完整的端側推理能力 | 即將開放 |
| Phase 3 | 訓練方法 + 剪枝量化技術 | 讓更多團隊訓練自己的端側模型 | 規劃中 |
技術論文已發布:arXiv:2509.17336 (https://arxiv.org/abs/2509.17336)
立即體驗:`brew install mano-cua`

Mano-P 是明略科技開源的 GUI-VLA(Vision-Language-Action)智能體,設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。P 代表 Person(個體)與 Party(組織)——無論個人還是企業,都能夠創造屬于自己的個性化 AI。
可以! 在本地模式下,所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。
| 對比維度 | Mano-P | Claude Computer Use |
| OSWorld | 58.2%(專用模型第一,全模型前五) | 全部模型第一(千億參數級) |
| WebRetriever | 41.7 NavEval(領先) | 31.3(Claude 4.5) |
| 數據流向 | 完全本地,截圖不出設備 | 需上傳到云端 API |
| 離線運行 | ? 支持 | ? 不支持 |
| 主動性 | ? 7×24 無限制運行 | ?? 受平臺算力成本限制 |
| 開源 | ? Apache 2.0 | ? 閉源 |
Mano-P 在專用模型中排名全球第一,在網頁檢索等任務上領先 Claude,且天然滿足數據安全要求。適合高安全需求場景和需要 AI 主動服務的場景。
更多詳情請登錄GitHub了解
GitHub:[github.com/Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)
聯系我們:model@mininglamp.com
信息填寫