端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”
2026-04-13
2026 年 3 月 24 日,Anthropic 宣布其 “Computer Use”功能正式獲得“操作你電腦”的能力——在 Claude中,AI 可以移動鼠標、點擊按鈕、打開應用、填寫表格,像一個真正坐在你電腦前的助手那樣工作。
一個新賽道正在以肉眼可見的速度成型:GUI 智能體——不是和你聊天的 AI,而是替你干活的 AI。
但一個被大多數報道忽略的問題是:當 AI 在幫你操作電腦時,你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告:“當 Computer Use 激活時,Claude 能看到屏幕上顯示的一切,包括個人數據、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機或容器中運行這項功能。
這不是一個小問題——對于處理客戶數據、財務信息、法律文件的企業來說,這可能是一個根本性的架構選擇問題。
有沒有一種 GUI 智能體,能像 Claude 一樣強大,但數據完全不出設備?
明略科技 Mano-P 已經給出了答案:圍繞隱私與個性化兩大支柱,72B 模型屠榜證明實力,4B 蒸餾版上機證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一,領先第二名超過 13 個百分點,而這一切完全在你自己的 Mac 上本地運行。

過去兩年,大模型的能力主要體現在“說”——寫文章、回答問題、生成代碼。但企業真正需要的不是一個能說會道的聊天機器人,而是一個能真正干活的數字員工。
GUI 智能體(GUI Agent)就是這一步的關鍵跨越。它的核心能力是:通過理解圖形用戶界面(GUI),像人類一樣操作電腦完成任務。你告訴它“幫我在 CRM 系統里錄入今天的客戶拜訪記錄”,它就真的打開 CRM、找到對應字段、填寫內容、點擊保存——全程不需要你動手。
這和傳統的 RPA(機器人流程自動化)有本質區別:
RPA 依賴系統 API 和預設規則,界面一改版就得重配,維護成本高,靈活性差。
GUI 智能體 基于視覺理解,像人一樣“看”屏幕、“理解”界面、“決定”下一步操作。界面改了?它能自適應,因為它理解的是語義,不是像素坐標。
這個差異意味著什么?意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現代 SaaS 工具、老舊的 ERP 系統,還是只有圖形界面沒有 API 的專業軟件。它解鎖的不是某一個系統的自動化,而是通用的桌面自動化能力。
截至目前,GUI 智能體賽道的主流方案幾乎都走了同一條路:依賴云端大模型推理。底層邏輯都是“截屏→上傳云端→模型推理→返回操作指令”。
這條路有兩個根本性的問題:
第一個問題是數據安全。你的每一張屏幕截圖都在云端服務器上走了一遭。對于個人用戶操作瀏覽器這種場景,這或許可以接受。但當企業把 GUI 智能體用在審查合同、處理財務報表、錄入客戶數據等核心業務時,合規團隊會問:“這些截圖存在哪里?誰能看到?保留多久?”
第二個問題更根本:云端 AI 不可能真正“主動”幫你。 真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了,自動幫你準備資料;看到重要郵件,自動提醒你。但這種主動性意味著 AI 要不停地自發運算。在云端,每一次運算都消耗平臺的算力和費用——AI 越主動,平臺越虧錢。所以云端平臺必然限制 AI 的主動性,這就是為什么你用 ChatGPT 從來不會看到它主動找你。
端側模型從根本上解決了這兩個問題:AI 跑在你自己的設備上,用的是你自己的芯片和電——它主動運行一萬次也不花平臺一分錢;同時數據一步都不出你的設備。
這就引出了一個關鍵問題:有沒有一種端側方案,性能也能達到頂級?
在上述格局中,明略科技近期開源的的 Mano-P 占據了一個獨特的位置:專用模型性能第一 + 端側本地運行。

| 基準測試 | Mano-P 成績 | 排名 | 說明 |
| OSWorld(專用模型) | 58.2% 成功率 | 全球第一 | 領先第二名(OpenCUA-72b, 45.0%)13.2個百分點 |
| OSWorld(全部模型) | 58.2% 成功率 | 前五 | 前四均為千億參數級通用大模型 |
| WebRetriever Protocol I | 41.7 NavEval | 全球第一 | 超越Gemini 2.5 Pro CU(40.9)和Claude 4.5 CU(31.3) |
| ScreenSpot-V2 | 93.5 | 領先 | GUI Grounding視覺定位 |
| MMBench | 87.5 | 領先 | 感知認知 |
| UI-Vision | 46.6 | 領先 | UI視覺理解 |
| OS-World-G | 69.5 | 領先 | OSWorld視覺定位子任務 |
| 端側推理(4B量化,M4 Pro) | 476 tokens/s預填充,76 tokens/s解碼 | — | 峰值內存僅4.356GB |
72B 模型屠榜證明技術實力,蒸餾為 4B 上機證明日常可用。對于Mano-P來說,能力和便捷不是二選一。經過專項訓練和優化的專用模型,完全可以在特定任務上達到甚至超越通用大模型的水平。端側模型不等于弱模型。

Mano-P 的本地模式不是在已有的云端架構上“加了一層加密”,而是從架構層面消除了數據外泄的可能性:
| 安全維度 | Mano-P 端側方案 | 典型云端方案 |
| 數據流向 | 所有推理在本地完成,截圖不出設備 | 截圖上傳到云端服務器處理 |
| 離線能力 | 支持完全離線運行,無需聯網 | 必須聯網才能使用 |
| 主動性 | 7×24 不間斷運行,無成本限制 | 平臺限制主動頻率,越主動越貴 |
| 代碼審計 | 完整源代碼開源,企業可自行審查 | 閉源黑盒,依賴服務商承諾 |
| 合規適配 | 天然滿足數據本地化要求 | 需額外合規評估和協議 |
對于金融機構審查合同、醫療機構處理病歷、政務系統錄入公民信息等場景,這種“架構級安全”不是加分項,而是準入門檻。
在一臺 Mac 上運行大參數模型做 GUI 操作,聽起來不太現實。Mano-P 靠三項核心技術解決了這個問題:
Mano-P 提供了三種使用形式,覆蓋從開發者到普通用戶的不同需求:
| 使用形式 | 適合誰 | 安裝方式 | 特點 |
| 命令行工具(mano-cua) | 開發者、高級用戶 | `brew install mano-cua` | 終端直接運行任務 |
| Python SDK(mano-client) | Python 開發者 | `pip install mano-client`(開發中) | 集成到現有項目,支持異步調用 |
| AI Agent Skill(mano-skill) | AI Agent 平臺用戶 | OpenClaw 插件安裝 | Agent 編排 + GUI 執行無縫銜接 |
其中 mano-skill 最值得關注。作為 OpenClaw 等 AI Agent 平臺的技能插件,Mano-P 賦予了 Agent “看屏幕、動鼠標”的能力。OpenClaw 是大腦,Mano-P 是雙手——全鏈路開源,全程端側運行,數據一步不出你的設備。
舉個例子:你在 OpenClaw 中對 Agent 說“幫我把這份報告的數據錄入到公司的 ERP 系統里”,Agent 自動規劃任務步驟,需要操作界面時調用 mano-skill,Mano-P 接管屏幕操作——整個過程在本地完成,Agent 編排和 GUI 執行無縫銜接。
運行時,屏幕右上角會顯示一個狀態面板,實時顯示任務進度,用戶可以隨時暫停或停止。每一步操作執行前,敏感或潛在危險的操作會要求用戶確認——AI 干活,人類監督。
GUI 智能體賽道正處于從“技術驗證”到“規模落地”的關鍵轉折點。
從技術趨勢看,兩個方向正在同步發展:一是通用大模型持續提升 GUI 操作能力,二是專用端側模型通過精巧的訓練和優化方法,在更小的參數規模上逼近甚至超越通用模型的任務表現。Mano-P 已經用實測數據證明了后一條路線的可行性——而這條路線天然兼容數據安全和合規要求。
Mano-P 代表的端側路線給出了一個清晰的回答:AI 最強大的能力,應該跑在每個人自己的設備上。 開源、本地、可審計——AI 最強大的能力,應該跑在每個人自己的設備上。這不是一句口號,而是一個正在被實現的技術路線。
| 階段 | 開放內容 | 目標用戶 | 狀態 |
| Phase 1(當前) | 開源 CUA Skills——GUI 操作的技能庫 | Agent愛好者,OpenClaw/Claude Code用戶 | 已發布 |
| Phase 2 | 開源本地模型 + Python SDK——完整的端側推理能力 | 高安全需求開發者,本地部署 | 即將開放 |
| Phase 3 | 開源訓練方法 + 剪枝量化技術 | 研究人員、模型訓練者 | 規劃中 |
立即體驗:`brew install mano-cua`

Mano-P 是一個開源的 GUI-VLA(Vision-Language-Action)智能體,設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。Mano 是西班牙語里”手”的意思,P 有兩重含義:Person(個體)與 Party(組織)——我們相信,無論個人還是企業,都能夠創造屬于自己的個性化 AI。核心理念:AI for Personal = 隱私 + 個性化。
| 對比維度 | Mano-P | Claude Computer Use |
| OSWorld(全部模型) | 58.2%(專用模型第一,全部模型前五) | 全部模型第一(千億參數級通用大模型) |
| WebRetriever Protocol I | 41.7 NavEval(領先) | 31.3(Claude 4.5) |
| 數據流向 | 完全本地,截圖不出設備 | 需上傳到云端 API |
| 離線運行 | ? 支持 | ? 不支持 |
| 主動性 | ? 7×24 無限制運行 | ?? 受平臺算力成本限制 |
| 開源 | ? Apache 2.0 協議 | ? 閉源 |
Mano-P 在專用模型中排名全球第一,在網頁檢索等任務上領先 Claude,且天然滿足數據安全要求。適合高安全需求場景。
可以! 在本地模式下,所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。
最低要求:Mac mini 或 MacBook;Apple M4 芯片;32GB 內存
替代方案:任何 Mac + Mano-P 算力棒(通過 USB 4.0+ 連接)
我們計劃在未來支持更多設備。
了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)
聯系我們:model@mininglamp.com
信息填寫