首頁干貨文章端側 GUI 智能體模型全球第一：Mano-P 如何做到“又強又安全”

端側 GUI 智能體模型全球第一：Mano-P 如何做到“又強又安全”

2026-04-13

2026 年 3 月 24 日，Anthropic 宣布其 “Computer Use”功能正式獲得“操作你電腦”的能力——在 Claude中，AI 可以移動鼠標、點擊按鈕、打開應用、填寫表格，像一個真正坐在你電腦前的助手那樣工作。

一個新賽道正在以肉眼可見的速度成型：GUI 智能體——不是和你聊天的 AI，而是替你干活的 AI。

但一個被大多數報道忽略的問題是：當 AI 在幫你操作電腦時，你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告：“當 Computer Use 激活時，Claude 能看到屏幕上顯示的一切，包括個人數據、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機或容器中運行這項功能。

這不是一個小問題——對于處理客戶數據、財務信息、法律文件的企業來說，這可能是一個根本性的架構選擇問題。

有沒有一種 GUI 智能體，能像 Claude 一樣強大，但數據完全不出設備？

明略科技 Mano-P 已經給出了答案：圍繞隱私與個性化兩大支柱，72B 模型屠榜證明實力，4B 蒸餾版上機證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一，領先第二名超過 13 個百分點，而這一切完全在你自己的 Mac 上本地運行。

關鍵要點

GUI 智能體賽道逐漸成型：Anthropic 發布 Claude Computer Use 桌面版
核心矛盾浮出水面：當前主流 GUI 智能體都需要將屏幕截圖上傳云端，Anthropic 官方文檔明確警告隱私風險
72B 屠榜，4B 上機：明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 專用模型全球第一，蒸餾為 4B 版本后可在 M4 Mac 上流暢運行
端側模型不等于弱模型：Mano-P 在 WebRetriever 等多個基準測試中超越多個千億參數級通用大模型
架構級安全：本地模式下所有推理在設備上完成，屏幕截圖不出設備，支持完全離線運行
AI for Personal 雙支柱：隱私（數據不出設備）+ 個性化（三階段逐步釋放完整技術棧）

二、GUI 智能體是什么？為什么它是 AI 落地的關鍵一步

過去兩年，大模型的能力主要體現在“說”——寫文章、回答問題、生成代碼。但企業真正需要的不是一個能說會道的聊天機器人，而是一個能真正干活的數字員工。

GUI 智能體（GUI Agent）就是這一步的關鍵跨越。它的核心能力是：通過理解圖形用戶界面（GUI），像人類一樣操作電腦完成任務。你告訴它“幫我在 CRM 系統里錄入今天的客戶拜訪記錄”，它就真的打開 CRM、找到對應字段、填寫內容、點擊保存——全程不需要你動手。

這和傳統的 RPA（機器人流程自動化）有本質區別：

RPA 依賴系統 API 和預設規則，界面一改版就得重配，維護成本高，靈活性差。

GUI 智能體基于視覺理解，像人一樣“看”屏幕、“理解”界面、“決定”下一步操作。界面改了？它能自適應，因為它理解的是語義，不是像素坐標。

這個差異意味著什么？意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現代 SaaS 工具、老舊的 ERP 系統，還是只有圖形界面沒有 API 的專業軟件。它解鎖的不是某一個系統的自動化，而是通用的桌面自動化能力。

三、行業現狀：能力很強，但有兩個根本性問題

截至目前，GUI 智能體賽道的主流方案幾乎都走了同一條路：依賴云端大模型推理。底層邏輯都是“截屏→上傳云端→模型推理→返回操作指令”。

這條路有兩個根本性的問題：

第一個問題是數據安全。你的每一張屏幕截圖都在云端服務器上走了一遭。對于個人用戶操作瀏覽器這種場景，這或許可以接受。但當企業把 GUI 智能體用在審查合同、處理財務報表、錄入客戶數據等核心業務時，合規團隊會問：“這些截圖存在哪里？誰能看到？保留多久？”

第二個問題更根本：云端 AI 不可能真正“主動”幫你。真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了，自動幫你準備資料；看到重要郵件，自動提醒你。但這種主動性意味著 AI 要不停地自發運算。在云端，每一次運算都消耗平臺的算力和費用——AI 越主動，平臺越虧錢。所以云端平臺必然限制 AI 的主動性，這就是為什么你用 ChatGPT 從來不會看到它主動找你。

端側模型從根本上解決了這兩個問題：AI 跑在你自己的設備上，用的是你自己的芯片和電——它主動運行一萬次也不花平臺一分錢；同時數據一步都不出你的設備。

這就引出了一個關鍵問題：有沒有一種端側方案，性能也能達到頂級？

四、Mano-P：72B 屠榜，4B 上機

在上述格局中，明略科技近期開源的的 Mano-P 占據了一個獨特的位置：專用模型性能第一 + 端側本地運行。

性能：不是“也能用”，是“最能打”

基準測試	Mano-P 成績	排名	說明
OSWorld（專用模型）	58.2% 成功率	全球第一	領先第二名（OpenCUA-72b, 45.0%）13.2個百分點
OSWorld（全部模型）	58.2% 成功率	前五	前四均為千億參數級通用大模型
WebRetriever Protocol I	41.7 NavEval	全球第一	超越Gemini 2.5 Pro CU（40.9）和Claude 4.5 CU（31.3）
ScreenSpot-V2	93.5	領先	GUI Grounding視覺定位
MMBench	87.5	領先	感知認知
UI-Vision	46.6	領先	UI視覺理解
OS-World-G	69.5	領先	OSWorld視覺定位子任務
端側推理（4B量化，M4 Pro）	476 tokens/s預填充，76 tokens/s解碼	—	峰值內存僅4.356GB

72B 模型屠榜證明技術實力，蒸餾為 4B 上機證明日常可用。對于Mano-P來說，能力和便捷不是二選一。經過專項訓練和優化的專用模型，完全可以在特定任務上達到甚至超越通用大模型的水平。端側模型不等于弱模型。

安全：不是“更安全”，是“架構級安全”

Mano-P 的本地模式不是在已有的云端架構上“加了一層加密”，而是從架構層面消除了數據外泄的可能性：

安全維度	Mano-P 端側方案	典型云端方案
數據流向	所有推理在本地完成，截圖不出設備	截圖上傳到云端服務器處理
離線能力	支持完全離線運行，無需聯網	必須聯網才能使用
主動性	7×24 不間斷運行，無成本限制	平臺限制主動頻率，越主動越貴
代碼審計	完整源代碼開源，企業可自行審查	閉源黑盒，依賴服務商承諾
合規適配	天然滿足數據本地化要求	需額外合規評估和協議

對于金融機構審查合同、醫療機構處理病歷、政務系統錄入公民信息等場景，這種“架構級安全”不是加分項，而是準入門檻。

技術：怎么做到“又大又快”

在一臺 Mac 上運行大參數模型做 GUI 操作，聽起來不太現實。Mano-P 靠三項核心技術解決了這個問題：

GSPruning 視覺 Token 剪枝：處理高分辨率屏幕截圖時，智能保留界面結構骨架和關鍵 UI 元素，將視覺 Token 數量壓縮至 12.57%——相當于只看屏幕上最重要的 13% 信息，推理速度提升數倍，而任務成功率幾乎不損失。
混合精度量化（w4a16）：用更緊湊的方式存儲模型——權重用 4bit，激活值保留 16bit。效果：4B 量化版本在 M4 Pro 上峰值內存僅 4.356GB，每秒能吐出約 300-400 個中文字，跑 AI 的同時你還能正常辦公。
Mano-Action 雙向自增強訓練：傳統模型只學“你告訴我點哪里，我就點哪里”。Mano-P 同時學習正向和反向兩個方向，通過循環一致性互相驗證。配合三階段漸進訓練（監督微調→離線強化學習→在線強化學習），模型從“背操作手冊”進化到“真正學會操作界面”。

五、怎么讓 Mano-P在本地設備上自主操作界面完成任務？

Mano-P 提供了三種使用形式，覆蓋從開發者到普通用戶的不同需求：

使用形式	適合誰	安裝方式	特點
命令行工具（mano-cua）	開發者、高級用戶	`brew install mano-cua`	終端直接運行任務
Python SDK（mano-client）	Python 開發者	`pip install mano-client`（開發中）	集成到現有項目，支持異步調用
AI Agent Skill（mano-skill）	AI Agent 平臺用戶	OpenClaw 插件安裝	Agent 編排 + GUI 執行無縫銜接

其中 mano-skill 最值得關注。作為 OpenClaw 等 AI Agent 平臺的技能插件，Mano-P 賦予了 Agent “看屏幕、動鼠標”的能力。OpenClaw 是大腦，Mano-P 是雙手——全鏈路開源，全程端側運行，數據一步不出你的設備。

舉個例子：你在 OpenClaw 中對 Agent 說“幫我把這份報告的數據錄入到公司的 ERP 系統里”，Agent 自動規劃任務步驟，需要操作界面時調用 mano-skill，Mano-P 接管屏幕操作——整個過程在本地完成，Agent 編排和 GUI 執行無縫銜接。

運行時，屏幕右上角會顯示一個狀態面板，實時顯示任務進度，用戶可以隨時暫停或停止。每一步操作執行前，敏感或潛在危險的操作會要求用戶確認——AI 干活，人類監督。

六、從“能用”到“敢用”：三階段開源路線

GUI 智能體賽道正處于從“技術驗證”到“規模落地”的關鍵轉折點。

從技術趨勢看，兩個方向正在同步發展：一是通用大模型持續提升 GUI 操作能力，二是專用端側模型通過精巧的訓練和優化方法，在更小的參數規模上逼近甚至超越通用模型的任務表現。Mano-P 已經用實測數據證明了后一條路線的可行性——而這條路線天然兼容數據安全和合規要求。

Mano-P 代表的端側路線給出了一個清晰的回答：AI 最強大的能力，應該跑在每個人自己的設備上。開源、本地、可審計——AI 最強大的能力，應該跑在每個人自己的設備上。這不是一句口號，而是一個正在被實現的技術路線。

階段	開放內容	目標用戶	狀態
Phase 1（當前）	開源 CUA Skills——GUI 操作的技能庫	Agent愛好者，OpenClaw/Claude Code用戶	已發布
Phase 2	開源本地模型 + Python SDK——完整的端側推理能力	高安全需求開發者，本地部署	即將開放
Phase 3	開源訓練方法 + 剪枝量化技術	研究人員、模型訓練者	規劃中

立即體驗：`brew install mano-cua`

七、常見問題

Q: Mano-P 是什么？

Mano-P 是一個開源的 GUI-VLA（Vision-Language-Action）智能體，設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。Mano 是西班牙語里”手”的意思，P 有兩重含義：Person（個體）與 Party（組織）——我們相信，無論個人還是企業，都能夠創造屬于自己的個性化 AI。核心理念：AI for Personal = 隱私 + 個性化。

Q: Mano-P 與 Claude Computer Use 相比如何？

對比維度	Mano-P	Claude Computer Use
OSWorld（全部模型）	58.2%（專用模型第一，全部模型前五）	全部模型第一（千億參數級通用大模型）
WebRetriever Protocol I	41.7 NavEval（領先）	31.3（Claude 4.5）
數據流向	完全本地，截圖不出設備	需上傳到云端 API
離線運行	? 支持	? 不支持
主動性	? 7×24 無限制運行	?? 受平臺算力成本限制
開源	? Apache 2.0 協議	? 閉源

Mano-P 在專用模型中排名全球第一，在網頁檢索等任務上領先 Claude，且天然滿足數據安全要求。適合高安全需求場景。

Q: Mano-P 可以離線運行嗎？

可以！在本地模式下，所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。

Q: 需要什么硬件配置？

最低要求：Mac mini 或 MacBook；Apple M4 芯片；32GB 內存

替代方案：任何 Mac + Mano-P 算力棒（通過 USB 4.0+ 連接）

我們計劃在未來支持更多設備。

了解更多：[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯系我們：model@mininglamp.com

欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区