欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

EN

端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”

2026-04-13

2026 年 3 月 24 日,Anthropic 宣布其 “Computer Use”功能正式獲得“操作你電腦”的能力——在 Claude中,AI 可以移動鼠標、點擊按鈕、打開應用、填寫表格,像一個真正坐在你電腦前的助手那樣工作。

一個新賽道正在以肉眼可見的速度成型:GUI 智能體——不是和你聊天的 AI,而是替你干活的 AI。

但一個被大多數報道忽略的問題是:當 AI 在幫你操作電腦時,你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告:“當 Computer Use 激活時,Claude 能看到屏幕上顯示的一切,包括個人數據、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機或容器中運行這項功能。

這不是一個小問題——對于處理客戶數據、財務信息、法律文件的企業來說,這可能是一個根本性的架構選擇問題。

有沒有一種 GUI 智能體,能像 Claude 一樣強大,但數據完全不出設備?

明略科技 Mano-P 已經給出了答案:圍繞隱私與個性化兩大支柱,72B 模型屠榜證明實力,4B 蒸餾版上機證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一,領先第二名超過 13 個百分點,而這一切完全在你自己的 Mac 上本地運行。

端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”

關鍵要點

  • GUI 智能體賽道逐漸成型:Anthropic 發布 Claude Computer Use 桌面版
  • 核心矛盾浮出水面:當前主流 GUI 智能體都需要將屏幕截圖上傳云端,Anthropic 官方文檔明確警告隱私風險
  • 72B 屠榜,4B 上機:明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 專用模型全球第一,蒸餾為 4B 版本后可在 M4 Mac 上流暢運行
  • 端側模型不等于弱模型:Mano-P 在 WebRetriever 等多個基準測試中超越多個千億參數級通用大模型
  • 架構級安全:本地模式下所有推理在設備上完成,屏幕截圖不出設備,支持完全離線運行
  • AI for Personal 雙支柱:隱私(數據不出設備)+ 個性化(三階段逐步釋放完整技術棧)

二、GUI 智能體是什么?為什么它是 AI 落地的關鍵一步

過去兩年,大模型的能力主要體現在“說”——寫文章、回答問題、生成代碼。但企業真正需要的不是一個能說會道的聊天機器人,而是一個能真正干活的數字員工。

GUI 智能體(GUI Agent)就是這一步的關鍵跨越。它的核心能力是:通過理解圖形用戶界面(GUI),像人類一樣操作電腦完成任務。你告訴它“幫我在 CRM 系統里錄入今天的客戶拜訪記錄”,它就真的打開 CRM、找到對應字段、填寫內容、點擊保存——全程不需要你動手。

這和傳統的 RPA(機器人流程自動化)有本質區別:

RPA 依賴系統 API 和預設規則,界面一改版就得重配,維護成本高,靈活性差。

GUI 智能體 基于視覺理解,像人一樣“看”屏幕、“理解”界面、“決定”下一步操作。界面改了?它能自適應,因為它理解的是語義,不是像素坐標。

這個差異意味著什么?意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現代 SaaS 工具、老舊的 ERP 系統,還是只有圖形界面沒有 API 的專業軟件。它解鎖的不是某一個系統的自動化,而是通用的桌面自動化能力。

三、行業現狀:能力很強,但有兩個根本性問題

截至目前,GUI 智能體賽道的主流方案幾乎都走了同一條路:依賴云端大模型推理。底層邏輯都是“截屏→上傳云端→模型推理→返回操作指令”。

這條路有兩個根本性的問題:

第一個問題是數據安全。你的每一張屏幕截圖都在云端服務器上走了一遭。對于個人用戶操作瀏覽器這種場景,這或許可以接受。但當企業把 GUI 智能體用在審查合同、處理財務報表、錄入客戶數據等核心業務時,合規團隊會問:“這些截圖存在哪里?誰能看到?保留多久?”

第二個問題更根本:云端 AI 不可能真正“主動”幫你。 真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了,自動幫你準備資料;看到重要郵件,自動提醒你。但這種主動性意味著 AI 要不停地自發運算。在云端,每一次運算都消耗平臺的算力和費用——AI 越主動,平臺越虧錢。所以云端平臺必然限制 AI 的主動性,這就是為什么你用 ChatGPT 從來不會看到它主動找你。

端側模型從根本上解決了這兩個問題:AI 跑在你自己的設備上,用的是你自己的芯片和電——它主動運行一萬次也不花平臺一分錢;同時數據一步都不出你的設備。

這就引出了一個關鍵問題:有沒有一種端側方案,性能也能達到頂級?

四、Mano-P:72B 屠榜,4B 上機

在上述格局中,明略科技近期開源的的 Mano-P 占據了一個獨特的位置:專用模型性能第一 + 端側本地運行。

端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”

性能:不是“也能用”,是“最能打

基準測試Mano-P 成績排名說明
OSWorld(專用模型)58.2% 成功率全球第一領先第二名(OpenCUA-72b, 45.0%)13.2個百分點
OSWorld(全部模型)58.2% 成功率前五前四均為千億參數級通用大模型
WebRetriever Protocol I41.7 NavEval全球第一超越Gemini 2.5 Pro CU(40.9)和Claude 4.5 CU(31.3)
ScreenSpot-V293.5領先GUI Grounding視覺定位
MMBench87.5領先感知認知
UI-Vision46.6領先UI視覺理解
OS-World-G69.5領先OSWorld視覺定位子任務
端側推理(4B量化,M4 Pro)476 tokens/s預填充,76 tokens/s解碼峰值內存僅4.356GB

72B 模型屠榜證明技術實力,蒸餾為 4B 上機證明日常可用。對于Mano-P來說,能力和便捷不是二選一。經過專項訓練和優化的專用模型,完全可以在特定任務上達到甚至超越通用大模型的水平。端側模型不等于弱模型。

端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”

安全:不是“更安全”,是“架構級安全

Mano-P 的本地模式不是在已有的云端架構上“加了一層加密”,而是從架構層面消除了數據外泄的可能性:

安全維度Mano-P 端側方案典型云端方案
數據流向所有推理在本地完成,截圖不出設備截圖上傳到云端服務器處理
離線能力支持完全離線運行,無需聯網必須聯網才能使用
主動性7×24 不間斷運行,無成本限制平臺限制主動頻率,越主動越貴
代碼審計完整源代碼開源,企業可自行審查閉源黑盒,依賴服務商承諾
合規適配天然滿足數據本地化要求需額外合規評估和協議

對于金融機構審查合同、醫療機構處理病歷、政務系統錄入公民信息等場景,這種“架構級安全”不是加分項,而是準入門檻。

技術:怎么做到“又大又快

在一臺 Mac 上運行大參數模型做 GUI 操作,聽起來不太現實。Mano-P 靠三項核心技術解決了這個問題:

  • GSPruning 視覺 Token 剪枝:處理高分辨率屏幕截圖時,智能保留界面結構骨架和關鍵 UI 元素,將視覺 Token 數量壓縮至 12.57%——相當于只看屏幕上最重要的 13% 信息,推理速度提升數倍,而任務成功率幾乎不損失。
  • 混合精度量化(w4a16):用更緊湊的方式存儲模型——權重用 4bit,激活值保留 16bit。效果:4B 量化版本在 M4 Pro 上峰值內存僅 4.356GB,每秒能吐出約 300-400 個中文字,跑 AI 的同時你還能正常辦公。
  • Mano-Action 雙向自增強訓練:傳統模型只學“你告訴我點哪里,我就點哪里”。Mano-P 同時學習正向和反向兩個方向,通過循環一致性互相驗證。配合三階段漸進訓練(監督微調→離線強化學習→在線強化學習),模型從“背操作手冊”進化到“真正學會操作界面”。

五、怎么讓 Mano-P在本地設備上自主操作界面完成任務?

Mano-P 提供了三種使用形式,覆蓋從開發者到普通用戶的不同需求:

使用形式適合誰安裝方式特點
命令行工具(mano-cua)開發者、高級用戶`brew install mano-cua`終端直接運行任務
Python SDK(mano-client)Python 開發者`pip install mano-client`(開發中)集成到現有項目,支持異步調用
AI Agent Skill(mano-skill)AI Agent 平臺用戶OpenClaw 插件安裝Agent 編排 + GUI 執行無縫銜接

其中 mano-skill 最值得關注。作為 OpenClaw 等 AI Agent 平臺的技能插件,Mano-P 賦予了 Agent “看屏幕、動鼠標”的能力。OpenClaw 是大腦,Mano-P 是雙手——全鏈路開源,全程端側運行,數據一步不出你的設備。

舉個例子:你在 OpenClaw 中對 Agent 說“幫我把這份報告的數據錄入到公司的 ERP 系統里”,Agent 自動規劃任務步驟,需要操作界面時調用 mano-skill,Mano-P 接管屏幕操作——整個過程在本地完成,Agent 編排和 GUI 執行無縫銜接。

運行時,屏幕右上角會顯示一個狀態面板,實時顯示任務進度,用戶可以隨時暫停或停止。每一步操作執行前,敏感或潛在危險的操作會要求用戶確認——AI 干活,人類監督。

六、從“能用”到“敢用”:三階段開源路線

GUI 智能體賽道正處于從“技術驗證”到“規模落地”的關鍵轉折點。

從技術趨勢看,兩個方向正在同步發展:一是通用大模型持續提升 GUI 操作能力,二是專用端側模型通過精巧的訓練和優化方法,在更小的參數規模上逼近甚至超越通用模型的任務表現。Mano-P 已經用實測數據證明了后一條路線的可行性——而這條路線天然兼容數據安全和合規要求。

Mano-P 代表的端側路線給出了一個清晰的回答:AI 最強大的能力,應該跑在每個人自己的設備上。 開源、本地、可審計——AI 最強大的能力,應該跑在每個人自己的設備上。這不是一句口號,而是一個正在被實現的技術路線。

階段開放內容目標用戶狀態
Phase 1(當前)開源 CUA Skills——GUI 操作的技能庫Agent愛好者,OpenClaw/Claude Code用戶已發布
Phase 2開源本地模型 + Python SDK——完整的端側推理能力高安全需求開發者,本地部署即將開放
Phase 3開源訓練方法 + 剪枝量化技術研究人員、模型訓練者規劃中

立即體驗:`brew install mano-cua`

端側 GUI 智能體模型全球第一:Mano-P 如何做到“又強又安全”

七、常見問題

Q: Mano-P 是什么?

Mano-P 是一個開源的 GUI-VLA(Vision-Language-Action)智能體,設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。Mano 是西班牙語里”手”的意思,P 有兩重含義:Person(個體)與 Party(組織)——我們相信,無論個人還是企業,都能夠創造屬于自己的個性化 AI。核心理念:AI for Personal = 隱私 + 個性化。

Q: Mano-P 與 Claude Computer Use 相比如何?

對比維度Mano-PClaude Computer Use
OSWorld(全部模型)58.2%(專用模型第一,全部模型前五)全部模型第一(千億參數級通用大模型)
WebRetriever Protocol I41.7 NavEval(領先)31.3(Claude 4.5)
數據流向完全本地,截圖不出設備需上傳到云端 API
離線運行? 支持? 不支持
主動性? 7×24 無限制運行?? 受平臺算力成本限制
開源? Apache 2.0 協議? 閉源

Mano-P 在專用模型中排名全球第一,在網頁檢索等任務上領先 Claude,且天然滿足數據安全要求。適合高安全需求場景。

Q: Mano-P 可以離線運行嗎?

可以! 在本地模式下,所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。

Q: 需要什么硬件配置?

最低要求:Mac mini 或 MacBook;Apple M4 芯片;32GB 內存

替代方案:任何 Mac + Mano-P 算力棒(通過 USB 4.0+ 連接)

 我們計劃在未來支持更多設備。

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯系我們:model@mininglamp.com

信息填寫

*手機號碼:

請選協議