欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

EN

端側(cè) GUI 智能體模型全球第一:Mano-P 如何做到“又強(qiáng)又安全”

2026-04-13

2026 年 3 月 24 日,Anthropic 宣布其 “Computer Use”功能正式獲得“操作你電腦”的能力——在 Claude中,AI 可以移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕、打開應(yīng)用、填寫表格,像一個(gè)真正坐在你電腦前的助手那樣工作。

一個(gè)新賽道正在以肉眼可見的速度成型:GUI 智能體——不是和你聊天的 AI,而是替你干活的 AI。

但一個(gè)被大多數(shù)報(bào)道忽略的問題是:當(dāng) AI 在幫你操作電腦時(shí),你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告:“當(dāng) Computer Use 激活時(shí),Claude 能看到屏幕上顯示的一切,包括個(gè)人數(shù)據(jù)、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機(jī)或容器中運(yùn)行這項(xiàng)功能。

這不是一個(gè)小問題——對(duì)于處理客戶數(shù)據(jù)、財(cái)務(wù)信息、法律文件的企業(yè)來說,這可能是一個(gè)根本性的架構(gòu)選擇問題。

有沒有一種 GUI 智能體,能像 Claude 一樣強(qiáng)大,但數(shù)據(jù)完全不出設(shè)備?

明略科技 Mano-P 已經(jīng)給出了答案:圍繞隱私與個(gè)性化兩大支柱,72B 模型屠榜證明實(shí)力,4B 蒸餾版上機(jī)證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一,領(lǐng)先第二名超過 13 個(gè)百分點(diǎn),而這一切完全在你自己的 Mac 上本地運(yùn)行。

端側(cè) GUI 智能體模型全球第一:Mano-P 如何做到“又強(qiáng)又安全”

關(guān)鍵要點(diǎn)

  • GUI 智能體賽道逐漸成型:Anthropic 發(fā)布 Claude Computer Use 桌面版
  • 核心矛盾浮出水面:當(dāng)前主流 GUI 智能體都需要將屏幕截圖上傳云端,Anthropic 官方文檔明確警告隱私風(fēng)險(xiǎn)
  • 72B 屠榜,4B 上機(jī):明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 專用模型全球第一,蒸餾為 4B 版本后可在 M4 Mac 上流暢運(yùn)行
  • 端側(cè)模型不等于弱模型:Mano-P 在 WebRetriever 等多個(gè)基準(zhǔn)測(cè)試中超越多個(gè)千億參數(shù)級(jí)通用大模型
  • 架構(gòu)級(jí)安全:本地模式下所有推理在設(shè)備上完成,屏幕截圖不出設(shè)備,支持完全離線運(yùn)行
  • AI for Personal 雙支柱:隱私(數(shù)據(jù)不出設(shè)備)+ 個(gè)性化(三階段逐步釋放完整技術(shù)棧)

二、GUI 智能體是什么?為什么它是 AI 落地的關(guān)鍵一步

過去兩年,大模型的能力主要體現(xiàn)在“說”——寫文章、回答問題、生成代碼。但企業(yè)真正需要的不是一個(gè)能說會(huì)道的聊天機(jī)器人,而是一個(gè)能真正干活的數(shù)字員工。

GUI 智能體(GUI Agent)就是這一步的關(guān)鍵跨越。它的核心能力是:通過理解圖形用戶界面(GUI),像人類一樣操作電腦完成任務(wù)。你告訴它“幫我在 CRM 系統(tǒng)里錄入今天的客戶拜訪記錄”,它就真的打開 CRM、找到對(duì)應(yīng)字段、填寫內(nèi)容、點(diǎn)擊保存——全程不需要你動(dòng)手。

這和傳統(tǒng)的 RPA(機(jī)器人流程自動(dòng)化)有本質(zhì)區(qū)別:

RPA 依賴系統(tǒng) API 和預(yù)設(shè)規(guī)則,界面一改版就得重配,維護(hù)成本高,靈活性差。

GUI 智能體 基于視覺理解,像人一樣“看”屏幕、“理解”界面、“決定”下一步操作。界面改了?它能自適應(yīng),因?yàn)樗斫獾氖钦Z(yǔ)義,不是像素坐標(biāo)。

這個(gè)差異意味著什么?意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現(xiàn)代 SaaS 工具、老舊的 ERP 系統(tǒng),還是只有圖形界面沒有 API 的專業(yè)軟件。它解鎖的不是某一個(gè)系統(tǒng)的自動(dòng)化,而是通用的桌面自動(dòng)化能力。

三、行業(yè)現(xiàn)狀:能力很強(qiáng),但有兩個(gè)根本性問題

截至目前,GUI 智能體賽道的主流方案幾乎都走了同一條路:依賴云端大模型推理。底層邏輯都是“截屏→上傳云端→模型推理→返回操作指令”。

這條路有兩個(gè)根本性的問題:

第一個(gè)問題是數(shù)據(jù)安全。你的每一張屏幕截圖都在云端服務(wù)器上走了一遭。對(duì)于個(gè)人用戶操作瀏覽器這種場(chǎng)景,這或許可以接受。但當(dāng)企業(yè)把 GUI 智能體用在審查合同、處理財(cái)務(wù)報(bào)表、錄入客戶數(shù)據(jù)等核心業(yè)務(wù)時(shí),合規(guī)團(tuán)隊(duì)會(huì)問:“這些截圖存在哪里?誰能看到?保留多久?”

第二個(gè)問題更根本:云端 AI 不可能真正“主動(dòng)”幫你。 真正有用的 AI 助手應(yīng)該是主動(dòng)的——自己發(fā)現(xiàn)你有個(gè)會(huì)議快開了,自動(dòng)幫你準(zhǔn)備資料;看到重要郵件,自動(dòng)提醒你。但這種主動(dòng)性意味著 AI 要不停地自發(fā)運(yùn)算。在云端,每一次運(yùn)算都消耗平臺(tái)的算力和費(fèi)用——AI 越主動(dòng),平臺(tái)越虧錢。所以云端平臺(tái)必然限制 AI 的主動(dòng)性,這就是為什么你用 ChatGPT 從來不會(huì)看到它主動(dòng)找你。

端側(cè)模型從根本上解決了這兩個(gè)問題:AI 跑在你自己的設(shè)備上,用的是你自己的芯片和電——它主動(dòng)運(yùn)行一萬次也不花平臺(tái)一分錢;同時(shí)數(shù)據(jù)一步都不出你的設(shè)備。

這就引出了一個(gè)關(guān)鍵問題:有沒有一種端側(cè)方案,性能也能達(dá)到頂級(jí)?

四、Mano-P:72B 屠榜,4B 上機(jī)

在上述格局中,明略科技近期開源的的 Mano-P 占據(jù)了一個(gè)獨(dú)特的位置:專用模型性能第一 + 端側(cè)本地運(yùn)行。

端側(cè) GUI 智能體模型全球第一:Mano-P 如何做到“又強(qiáng)又安全”

性能:不是“也能用”,是“最能打

基準(zhǔn)測(cè)試Mano-P 成績(jī)排名說明
OSWorld(專用模型)58.2% 成功率全球第一領(lǐng)先第二名(OpenCUA-72b, 45.0%)13.2個(gè)百分點(diǎn)
OSWorld(全部模型)58.2% 成功率前五前四均為千億參數(shù)級(jí)通用大模型
WebRetriever Protocol I41.7 NavEval全球第一超越Gemini 2.5 Pro CU(40.9)和Claude 4.5 CU(31.3)
ScreenSpot-V293.5領(lǐng)先GUI Grounding視覺定位
MMBench87.5領(lǐng)先感知認(rèn)知
UI-Vision46.6領(lǐng)先UI視覺理解
OS-World-G69.5領(lǐng)先OSWorld視覺定位子任務(wù)
端側(cè)推理(4B量化,M4 Pro)476 tokens/s預(yù)填充,76 tokens/s解碼峰值內(nèi)存僅4.356GB

72B 模型屠榜證明技術(shù)實(shí)力,蒸餾為 4B 上機(jī)證明日常可用。對(duì)于Mano-P來說,能力和便捷不是二選一。經(jīng)過專項(xiàng)訓(xùn)練和優(yōu)化的專用模型,完全可以在特定任務(wù)上達(dá)到甚至超越通用大模型的水平。端側(cè)模型不等于弱模型。

端側(cè) GUI 智能體模型全球第一:Mano-P 如何做到“又強(qiáng)又安全”

安全:不是“更安全”,是“架構(gòu)級(jí)安全

Mano-P 的本地模式不是在已有的云端架構(gòu)上“加了一層加密”,而是從架構(gòu)層面消除了數(shù)據(jù)外泄的可能性:

安全維度Mano-P 端側(cè)方案典型云端方案
數(shù)據(jù)流向所有推理在本地完成,截圖不出設(shè)備截圖上傳到云端服務(wù)器處理
離線能力支持完全離線運(yùn)行,無需聯(lián)網(wǎng)必須聯(lián)網(wǎng)才能使用
主動(dòng)性7×24 不間斷運(yùn)行,無成本限制平臺(tái)限制主動(dòng)頻率,越主動(dòng)越貴
代碼審計(jì)完整源代碼開源,企業(yè)可自行審查閉源黑盒,依賴服務(wù)商承諾
合規(guī)適配天然滿足數(shù)據(jù)本地化要求需額外合規(guī)評(píng)估和協(xié)議

對(duì)于金融機(jī)構(gòu)審查合同、醫(yī)療機(jī)構(gòu)處理病歷、政務(wù)系統(tǒng)錄入公民信息等場(chǎng)景,這種“架構(gòu)級(jí)安全”不是加分項(xiàng),而是準(zhǔn)入門檻。

技術(shù):怎么做到“又大又快

在一臺(tái) Mac 上運(yùn)行大參數(shù)模型做 GUI 操作,聽起來不太現(xiàn)實(shí)。Mano-P 靠三項(xiàng)核心技術(shù)解決了這個(gè)問題:

  • GSPruning 視覺 Token 剪枝:處理高分辨率屏幕截圖時(shí),智能保留界面結(jié)構(gòu)骨架和關(guān)鍵 UI 元素,將視覺 Token 數(shù)量壓縮至 12.57%——相當(dāng)于只看屏幕上最重要的 13% 信息,推理速度提升數(shù)倍,而任務(wù)成功率幾乎不損失。
  • 混合精度量化(w4a16):用更緊湊的方式存儲(chǔ)模型——權(quán)重用 4bit,激活值保留 16bit。效果:4B 量化版本在 M4 Pro 上峰值內(nèi)存僅 4.356GB,每秒能吐出約 300-400 個(gè)中文字,跑 AI 的同時(shí)你還能正常辦公。
  • Mano-Action 雙向自增強(qiáng)訓(xùn)練:傳統(tǒng)模型只學(xué)“你告訴我點(diǎn)哪里,我就點(diǎn)哪里”。Mano-P 同時(shí)學(xué)習(xí)正向和反向兩個(gè)方向,通過循環(huán)一致性互相驗(yàn)證。配合三階段漸進(jìn)訓(xùn)練(監(jiān)督微調(diào)→離線強(qiáng)化學(xué)習(xí)→在線強(qiáng)化學(xué)習(xí)),模型從“背操作手冊(cè)”進(jìn)化到“真正學(xué)會(huì)操作界面”。

五、怎么讓 Mano-P在本地設(shè)備上自主操作界面完成任務(wù)?

Mano-P 提供了三種使用形式,覆蓋從開發(fā)者到普通用戶的不同需求:

使用形式適合誰安裝方式特點(diǎn)
命令行工具(mano-cua)開發(fā)者、高級(jí)用戶`brew install mano-cua`終端直接運(yùn)行任務(wù)
Python SDK(mano-client)Python 開發(fā)者`pip install mano-client`(開發(fā)中)集成到現(xiàn)有項(xiàng)目,支持異步調(diào)用
AI Agent Skill(mano-skill)AI Agent 平臺(tái)用戶OpenClaw 插件安裝Agent 編排 + GUI 執(zhí)行無縫銜接

其中 mano-skill 最值得關(guān)注。作為 OpenClaw 等 AI Agent 平臺(tái)的技能插件,Mano-P 賦予了 Agent “看屏幕、動(dòng)鼠標(biāo)”的能力。OpenClaw 是大腦,Mano-P 是雙手——全鏈路開源,全程端側(cè)運(yùn)行,數(shù)據(jù)一步不出你的設(shè)備。

舉個(gè)例子:你在 OpenClaw 中對(duì) Agent 說“幫我把這份報(bào)告的數(shù)據(jù)錄入到公司的 ERP 系統(tǒng)里”,Agent 自動(dòng)規(guī)劃任務(wù)步驟,需要操作界面時(shí)調(diào)用 mano-skill,Mano-P 接管屏幕操作——整個(gè)過程在本地完成,Agent 編排和 GUI 執(zhí)行無縫銜接。

運(yùn)行時(shí),屏幕右上角會(huì)顯示一個(gè)狀態(tài)面板,實(shí)時(shí)顯示任務(wù)進(jìn)度,用戶可以隨時(shí)暫停或停止。每一步操作執(zhí)行前,敏感或潛在危險(xiǎn)的操作會(huì)要求用戶確認(rèn)——AI 干活,人類監(jiān)督。

六、從“能用”到“敢用”:三階段開源路線

GUI 智能體賽道正處于從“技術(shù)驗(yàn)證”到“規(guī)模落地”的關(guān)鍵轉(zhuǎn)折點(diǎn)。

從技術(shù)趨勢(shì)看,兩個(gè)方向正在同步發(fā)展:一是通用大模型持續(xù)提升 GUI 操作能力,二是專用端側(cè)模型通過精巧的訓(xùn)練和優(yōu)化方法,在更小的參數(shù)規(guī)模上逼近甚至超越通用模型的任務(wù)表現(xiàn)。Mano-P 已經(jīng)用實(shí)測(cè)數(shù)據(jù)證明了后一條路線的可行性——而這條路線天然兼容數(shù)據(jù)安全和合規(guī)要求。

Mano-P 代表的端側(cè)路線給出了一個(gè)清晰的回答:AI 最強(qiáng)大的能力,應(yīng)該跑在每個(gè)人自己的設(shè)備上。 開源、本地、可審計(jì)——AI 最強(qiáng)大的能力,應(yīng)該跑在每個(gè)人自己的設(shè)備上。這不是一句口號(hào),而是一個(gè)正在被實(shí)現(xiàn)的技術(shù)路線。

階段開放內(nèi)容目標(biāo)用戶狀態(tài)
Phase 1(當(dāng)前)開源 CUA Skills——GUI 操作的技能庫(kù)Agent愛好者,OpenClaw/Claude Code用戶已發(fā)布
Phase 2開源本地模型 + Python SDK——完整的端側(cè)推理能力高安全需求開發(fā)者,本地部署即將開放
Phase 3開源訓(xùn)練方法 + 剪枝量化技術(shù)研究人員、模型訓(xùn)練者規(guī)劃中

立即體驗(yàn):`brew install mano-cua`

端側(cè) GUI 智能體模型全球第一:Mano-P 如何做到“又強(qiáng)又安全”

七、常見問題

Q: Mano-P 是什么?

Mano-P 是一個(gè)開源的 GUI-VLA(Vision-Language-Action)智能體,設(shè)計(jì)用于在蘋果芯片邊緣設(shè)備上本地運(yùn)行。它使用純視覺理解來跨平臺(tái)自動(dòng)化桌面 GUI 操作。Mano 是西班牙語(yǔ)里”手”的意思,P 有兩重含義:Person(個(gè)體)與 Party(組織)——我們相信,無論個(gè)人還是企業(yè),都能夠創(chuàng)造屬于自己的個(gè)性化 AI。核心理念:AI for Personal = 隱私 + 個(gè)性化。

Q: Mano-P 與 Claude Computer Use 相比如何?

對(duì)比維度Mano-PClaude Computer Use
OSWorld(全部模型)58.2%(專用模型第一,全部模型前五)全部模型第一(千億參數(shù)級(jí)通用大模型)
WebRetriever Protocol I41.7 NavEval(領(lǐng)先)31.3(Claude 4.5)
數(shù)據(jù)流向完全本地,截圖不出設(shè)備需上傳到云端 API
離線運(yùn)行? 支持? 不支持
主動(dòng)性? 7×24 無限制運(yùn)行?? 受平臺(tái)算力成本限制
開源? Apache 2.0 協(xié)議? 閉源

Mano-P 在專用模型中排名全球第一,在網(wǎng)頁(yè)檢索等任務(wù)上領(lǐng)先 Claude,且天然滿足數(shù)據(jù)安全要求。適合高安全需求場(chǎng)景。

Q: Mano-P 可以離線運(yùn)行嗎?

可以! 在本地模式下,所有模型推理都在 Apple M4 設(shè)備上運(yùn)行。? 不會(huì)向外部服務(wù)器發(fā)送任何截圖或任務(wù)描述。

Q: 需要什么硬件配置?

最低要求:Mac mini 或 MacBook;Apple M4 芯片;32GB 內(nèi)存

替代方案:任何 Mac + Mano-P 算力棒(通過 USB 4.0+ 連接)

 我們計(jì)劃在未來支持更多設(shè)備。

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯(lián)系我們:model@mininglamp.com

信息填寫

*手機(jī)號(hào)碼:

請(qǐng)選協(xié)議