首頁(yè) 干貨文章端側(cè) GUI 智能體模型全球第一：Mano-P 如何做到“又強(qiáng)又安全”

端側(cè) GUI 智能體模型全球第一：Mano-P 如何做到“又強(qiáng)又安全”

2026-04-13

2026 年 3 月 24 日，Anthropic 宣布其 “Computer Use”功能正式獲得“操作你電腦”的能力——在 Claude中，AI 可以移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕、打開應(yīng)用、填寫表格，像一個(gè)真正坐在你電腦前的助手那樣工作。

一個(gè)新賽道正在以肉眼可見的速度成型：GUI 智能體——不是和你聊天的 AI，而是替你干活的 AI。

但一個(gè)被大多數(shù)報(bào)道忽略的問題是：當(dāng) AI 在幫你操作電腦時(shí)，你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告：“當(dāng) Computer Use 激活時(shí)，Claude 能看到屏幕上顯示的一切，包括個(gè)人數(shù)據(jù)、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機(jī)或容器中運(yùn)行這項(xiàng)功能。

這不是一個(gè)小問題——對(duì)于處理客戶數(shù)據(jù)、財(cái)務(wù)信息、法律文件的企業(yè)來說，這可能是一個(gè)根本性的架構(gòu)選擇問題。

有沒有一種 GUI 智能體，能像 Claude 一樣強(qiáng)大，但數(shù)據(jù)完全不出設(shè)備？

明略科技 Mano-P 已經(jīng)給出了答案：圍繞隱私與個(gè)性化兩大支柱，72B 模型屠榜證明實(shí)力，4B 蒸餾版上機(jī)證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一，領(lǐng)先第二名超過 13 個(gè)百分點(diǎn)，而這一切完全在你自己的 Mac 上本地運(yùn)行。

端側(cè) GUI 智能體模型全球第一：Mano-P 如何做到“又強(qiáng)又安全”

關(guān)鍵要點(diǎn)

GUI 智能體賽道逐漸成型：Anthropic 發(fā)布 Claude Computer Use 桌面版
核心矛盾浮出水面：當(dāng)前主流 GUI 智能體都需要將屏幕截圖上傳云端，Anthropic 官方文檔明確警告隱私風(fēng)險(xiǎn)
72B 屠榜，4B 上機(jī)：明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 專用模型全球第一，蒸餾為 4B 版本后可在 M4 Mac 上流暢運(yùn)行
端側(cè)模型不等于弱模型：Mano-P 在 WebRetriever 等多個(gè)基準(zhǔn)測(cè)試中超越多個(gè)千億參數(shù)級(jí)通用大模型
架構(gòu)級(jí)安全：本地模式下所有推理在設(shè)備上完成，屏幕截圖不出設(shè)備，支持完全離線運(yùn)行
AI for Personal 雙支柱：隱私（數(shù)據(jù)不出設(shè)備）+ 個(gè)性化（三階段逐步釋放完整技術(shù)棧）

二、GUI 智能體是什么？為什么它是 AI 落地的關(guān)鍵一步

過去兩年，大模型的能力主要體現(xiàn)在“說”——寫文章、回答問題、生成代碼。但企業(yè)真正需要的不是一個(gè)能說會(huì)道的聊天機(jī)器人，而是一個(gè)能真正干活的數(shù)字員工。

GUI 智能體（GUI Agent）就是這一步的關(guān)鍵跨越。它的核心能力是：通過理解圖形用戶界面（GUI），像人類一樣操作電腦完成任務(wù)。你告訴它“幫我在 CRM 系統(tǒng)里錄入今天的客戶拜訪記錄”，它就真的打開 CRM、找到對(duì)應(yīng)字段、填寫內(nèi)容、點(diǎn)擊保存——全程不需要你動(dòng)手。

這和傳統(tǒng)的 RPA（機(jī)器人流程自動(dòng)化）有本質(zhì)區(qū)別：

RPA 依賴系統(tǒng) API 和預(yù)設(shè)規(guī)則，界面一改版就得重配，維護(hù)成本高，靈活性差。

GUI 智能體基于視覺理解，像人一樣“看”屏幕、“理解”界面、“決定”下一步操作。界面改了？它能自適應(yīng)，因?yàn)樗斫獾氖钦Z(yǔ)義，不是像素坐標(biāo)。

這個(gè)差異意味著什么？意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現(xiàn)代 SaaS 工具、老舊的 ERP 系統(tǒng)，還是只有圖形界面沒有 API 的專業(yè)軟件。它解鎖的不是某一個(gè)系統(tǒng)的自動(dòng)化，而是通用的桌面自動(dòng)化能力。

三、行業(yè)現(xiàn)狀：能力很強(qiáng)，但有兩個(gè)根本性問題

截至目前，GUI 智能體賽道的主流方案幾乎都走了同一條路：依賴云端大模型推理。底層邏輯都是“截屏→上傳云端→模型推理→返回操作指令”。

這條路有兩個(gè)根本性的問題：

第一個(gè)問題是數(shù)據(jù)安全。你的每一張屏幕截圖都在云端服務(wù)器上走了一遭。對(duì)于個(gè)人用戶操作瀏覽器這種場(chǎng)景，這或許可以接受。但當(dāng)企業(yè)把 GUI 智能體用在審查合同、處理財(cái)務(wù)報(bào)表、錄入客戶數(shù)據(jù)等核心業(yè)務(wù)時(shí)，合規(guī)團(tuán)隊(duì)會(huì)問：“這些截圖存在哪里？誰能看到？保留多久？”

第二個(gè)問題更根本：云端 AI 不可能真正“主動(dòng)”幫你。真正有用的 AI 助手應(yīng)該是主動(dòng)的——自己發(fā)現(xiàn)你有個(gè)會(huì)議快開了，自動(dòng)幫你準(zhǔn)備資料；看到重要郵件，自動(dòng)提醒你。但這種主動(dòng)性意味著 AI 要不停地自發(fā)運(yùn)算。在云端，每一次運(yùn)算都消耗平臺(tái)的算力和費(fèi)用——AI 越主動(dòng)，平臺(tái)越虧錢。所以云端平臺(tái)必然限制 AI 的主動(dòng)性，這就是為什么你用 ChatGPT 從來不會(huì)看到它主動(dòng)找你。

端側(cè)模型從根本上解決了這兩個(gè)問題：AI 跑在你自己的設(shè)備上，用的是你自己的芯片和電——它主動(dòng)運(yùn)行一萬次也不花平臺(tái)一分錢；同時(shí)數(shù)據(jù)一步都不出你的設(shè)備。

這就引出了一個(gè)關(guān)鍵問題：有沒有一種端側(cè)方案，性能也能達(dá)到頂級(jí)？

四、Mano-P：72B 屠榜，4B 上機(jī)

在上述格局中，明略科技近期開源的的 Mano-P 占據(jù)了一個(gè)獨(dú)特的位置：專用模型性能第一 + 端側(cè)本地運(yùn)行。

性能：不是“也能用”，是“最能打”

基準(zhǔn)測(cè)試	Mano-P 成績(jī)	排名	說明
OSWorld（專用模型）	58.2% 成功率	全球第一	領(lǐng)先第二名（OpenCUA-72b, 45.0%）13.2個(gè)百分點(diǎn)
OSWorld（全部模型）	58.2% 成功率	前五	前四均為千億參數(shù)級(jí)通用大模型
WebRetriever Protocol I	41.7 NavEval	全球第一	超越Gemini 2.5 Pro CU（40.9）和Claude 4.5 CU（31.3）
ScreenSpot-V2	93.5	領(lǐng)先	GUI Grounding視覺定位
MMBench	87.5	領(lǐng)先	感知認(rèn)知
UI-Vision	46.6	領(lǐng)先	UI視覺理解
OS-World-G	69.5	領(lǐng)先	OSWorld視覺定位子任務(wù)
端側(cè)推理（4B量化，M4 Pro）	476 tokens/s預(yù)填充，76 tokens/s解碼	—	峰值內(nèi)存僅4.356GB

72B 模型屠榜證明技術(shù)實(shí)力，蒸餾為 4B 上機(jī)證明日常可用。對(duì)于Mano-P來說，能力和便捷不是二選一。經(jīng)過專項(xiàng)訓(xùn)練和優(yōu)化的專用模型，完全可以在特定任務(wù)上達(dá)到甚至超越通用大模型的水平。端側(cè)模型不等于弱模型。

安全：不是“更安全”，是“架構(gòu)級(jí)安全”

Mano-P 的本地模式不是在已有的云端架構(gòu)上“加了一層加密”，而是從架構(gòu)層面消除了數(shù)據(jù)外泄的可能性：

安全維度	Mano-P 端側(cè)方案	典型云端方案
數(shù)據(jù)流向	所有推理在本地完成，截圖不出設(shè)備	截圖上傳到云端服務(wù)器處理
離線能力	支持完全離線運(yùn)行，無需聯(lián)網(wǎng)	必須聯(lián)網(wǎng)才能使用
主動(dòng)性	7×24 不間斷運(yùn)行，無成本限制	平臺(tái)限制主動(dòng)頻率，越主動(dòng)越貴
代碼審計(jì)	完整源代碼開源，企業(yè)可自行審查	閉源黑盒，依賴服務(wù)商承諾
合規(guī)適配	天然滿足數(shù)據(jù)本地化要求	需額外合規(guī)評(píng)估和協(xié)議

對(duì)于金融機(jī)構(gòu)審查合同、醫(yī)療機(jī)構(gòu)處理病歷、政務(wù)系統(tǒng)錄入公民信息等場(chǎng)景，這種“架構(gòu)級(jí)安全”不是加分項(xiàng)，而是準(zhǔn)入門檻。

技術(shù)：怎么做到“又大又快”

在一臺(tái) Mac 上運(yùn)行大參數(shù)模型做 GUI 操作，聽起來不太現(xiàn)實(shí)。Mano-P 靠三項(xiàng)核心技術(shù)解決了這個(gè)問題：

GSPruning 視覺 Token 剪枝：處理高分辨率屏幕截圖時(shí)，智能保留界面結(jié)構(gòu)骨架和關(guān)鍵 UI 元素，將視覺 Token 數(shù)量壓縮至 12.57%——相當(dāng)于只看屏幕上最重要的 13% 信息，推理速度提升數(shù)倍，而任務(wù)成功率幾乎不損失。
混合精度量化（w4a16）：用更緊湊的方式存儲(chǔ)模型——權(quán)重用 4bit，激活值保留 16bit。效果：4B 量化版本在 M4 Pro 上峰值內(nèi)存僅 4.356GB，每秒能吐出約 300-400 個(gè)中文字，跑 AI 的同時(shí)你還能正常辦公。
Mano-Action 雙向自增強(qiáng)訓(xùn)練：傳統(tǒng)模型只學(xué)“你告訴我點(diǎn)哪里，我就點(diǎn)哪里”。Mano-P 同時(shí)學(xué)習(xí)正向和反向兩個(gè)方向，通過循環(huán)一致性互相驗(yàn)證。配合三階段漸進(jìn)訓(xùn)練（監(jiān)督微調(diào)→離線強(qiáng)化學(xué)習(xí)→在線強(qiáng)化學(xué)習(xí)），模型從“背操作手冊(cè)”進(jìn)化到“真正學(xué)會(huì)操作界面”。

五、怎么讓 Mano-P在本地設(shè)備上自主操作界面完成任務(wù)？

Mano-P 提供了三種使用形式，覆蓋從開發(fā)者到普通用戶的不同需求：

使用形式	適合誰	安裝方式	特點(diǎn)
命令行工具（mano-cua）	開發(fā)者、高級(jí)用戶	`brew install mano-cua`	終端直接運(yùn)行任務(wù)
Python SDK（mano-client）	Python 開發(fā)者	`pip install mano-client`（開發(fā)中）	集成到現(xiàn)有項(xiàng)目，支持異步調(diào)用
AI Agent Skill（mano-skill）	AI Agent 平臺(tái)用戶	OpenClaw 插件安裝	Agent 編排 + GUI 執(zhí)行無縫銜接

其中 mano-skill 最值得關(guān)注。作為 OpenClaw 等 AI Agent 平臺(tái)的技能插件，Mano-P 賦予了 Agent “看屏幕、動(dòng)鼠標(biāo)”的能力。OpenClaw 是大腦，Mano-P 是雙手——全鏈路開源，全程端側(cè)運(yùn)行，數(shù)據(jù)一步不出你的設(shè)備。

舉個(gè)例子：你在 OpenClaw 中對(duì) Agent 說“幫我把這份報(bào)告的數(shù)據(jù)錄入到公司的 ERP 系統(tǒng)里”，Agent 自動(dòng)規(guī)劃任務(wù)步驟，需要操作界面時(shí)調(diào)用 mano-skill，Mano-P 接管屏幕操作——整個(gè)過程在本地完成，Agent 編排和 GUI 執(zhí)行無縫銜接。

運(yùn)行時(shí)，屏幕右上角會(huì)顯示一個(gè)狀態(tài)面板，實(shí)時(shí)顯示任務(wù)進(jìn)度，用戶可以隨時(shí)暫停或停止。每一步操作執(zhí)行前，敏感或潛在危險(xiǎn)的操作會(huì)要求用戶確認(rèn)——AI 干活，人類監(jiān)督。

六、從“能用”到“敢用”：三階段開源路線

GUI 智能體賽道正處于從“技術(shù)驗(yàn)證”到“規(guī)模落地”的關(guān)鍵轉(zhuǎn)折點(diǎn)。

從技術(shù)趨勢(shì)看，兩個(gè)方向正在同步發(fā)展：一是通用大模型持續(xù)提升 GUI 操作能力，二是專用端側(cè)模型通過精巧的訓(xùn)練和優(yōu)化方法，在更小的參數(shù)規(guī)模上逼近甚至超越通用模型的任務(wù)表現(xiàn)。Mano-P 已經(jīng)用實(shí)測(cè)數(shù)據(jù)證明了后一條路線的可行性——而這條路線天然兼容數(shù)據(jù)安全和合規(guī)要求。

Mano-P 代表的端側(cè)路線給出了一個(gè)清晰的回答：AI 最強(qiáng)大的能力，應(yīng)該跑在每個(gè)人自己的設(shè)備上。開源、本地、可審計(jì)——AI 最強(qiáng)大的能力，應(yīng)該跑在每個(gè)人自己的設(shè)備上。這不是一句口號(hào)，而是一個(gè)正在被實(shí)現(xiàn)的技術(shù)路線。

階段	開放內(nèi)容	目標(biāo)用戶	狀態(tài)
Phase 1（當(dāng)前）	開源 CUA Skills——GUI 操作的技能庫(kù)	Agent愛好者，OpenClaw/Claude Code用戶	已發(fā)布
Phase 2	開源本地模型 + Python SDK——完整的端側(cè)推理能力	高安全需求開發(fā)者，本地部署	即將開放
Phase 3	開源訓(xùn)練方法 + 剪枝量化技術(shù)	研究人員、模型訓(xùn)練者	規(guī)劃中

立即體驗(yàn)：`brew install mano-cua`

七、常見問題

Q: Mano-P 是什么？

Mano-P 是一個(gè)開源的 GUI-VLA（Vision-Language-Action）智能體，設(shè)計(jì)用于在蘋果芯片邊緣設(shè)備上本地運(yùn)行。它使用純視覺理解來跨平臺(tái)自動(dòng)化桌面 GUI 操作。Mano 是西班牙語(yǔ)里”手”的意思，P 有兩重含義：Person（個(gè)體）與 Party（組織）——我們相信，無論個(gè)人還是企業(yè)，都能夠創(chuàng)造屬于自己的個(gè)性化 AI。核心理念：AI for Personal = 隱私 + 個(gè)性化。

Q: Mano-P 與 Claude Computer Use 相比如何？

對(duì)比維度	Mano-P	Claude Computer Use
OSWorld（全部模型）	58.2%（專用模型第一，全部模型前五）	全部模型第一（千億參數(shù)級(jí)通用大模型）
WebRetriever Protocol I	41.7 NavEval（領(lǐng)先）	31.3（Claude 4.5）
數(shù)據(jù)流向	完全本地，截圖不出設(shè)備	需上傳到云端 API
離線運(yùn)行	? 支持	? 不支持
主動(dòng)性	? 7×24 無限制運(yùn)行	?? 受平臺(tái)算力成本限制
開源	? Apache 2.0 協(xié)議	? 閉源

Mano-P 在專用模型中排名全球第一，在網(wǎng)頁(yè)檢索等任務(wù)上領(lǐng)先 Claude，且天然滿足數(shù)據(jù)安全要求。適合高安全需求場(chǎng)景。

Q: Mano-P 可以離線運(yùn)行嗎？

可以！在本地模式下，所有模型推理都在 Apple M4 設(shè)備上運(yùn)行。? 不會(huì)向外部服務(wù)器發(fā)送任何截圖或任務(wù)描述。

Q: 需要什么硬件配置？

最低要求：Mac mini 或 MacBook；Apple M4 芯片；32GB 內(nèi)存

替代方案：任何 Mac + Mano-P 算力棒（通過 USB 4.0+ 連接）

我們計(jì)劃在未來支持更多設(shè)備。

了解更多：[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯(lián)系我們：model@mininglamp.com

欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区