欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

EN

Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦

2026-04-13

AI for Personal——最懂你的 AI,只有你自己能造。2026 年 3 月,明略科技(港交所:2718.HK)在 GitHub 上開源了 Mano-P——一款專為邊緣設備設計的 GUI 智能體模型,圍繞隱私與個性化兩大支柱,讓每個人都能在自己的設備上擁有一雙 AI 的手。72B 模型屠榜,4B 蒸餾版上機。Mano-P 在 OSWorld 基準測試中以 58.2% 的成功率拿下專用模型全球第一,領先第二名超過 13 個百分點,并在 WebRetriever 等多項評測中超越千億參數級通用大模型。與當前主流的云端 GUI 智能體不同,Mano-P 可以完全在用戶自己的 Mac 上本地運行,屏幕截圖和任務數據不出設備。這款采用 Apache 2.0 協議的開源項目,正在重新定義 AI 操作電腦的方式。

Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦

關鍵要點

  • Mano-P 是明略科技開源的 GUI-VLA(Vision-Language-Action)智能體,專為蘋果芯片邊緣設備設計,支持完全本地運行
  • 72B 屠榜,4B 上機:72B 模型拿下 OSWorld 專用模型全球第一,蒸餾為 4B 版本可在 M4 Mac 上流暢運行
  • 本地模式下所有推理在設備上完成,屏幕截圖不出設備,支持完全離線運行
  • 4B 量化模型在 M4 Pro 上峰值內存僅 4.3GB,預填充 476 tokens/s——一臺 MacBook 就能流暢運行
  • 三種使用形式(命令行/SDK/Agent Skill)覆蓋開發者到普通用戶全場景
  • Apache 2.0 開源協議,三階段逐步釋放完整技術棧——從 CUA Skills 到本地模型 + SDK 再到訓練方法 + 剪枝量化技術

一、Mano-P 是什么

Mano-P 是明略科技推出的開源 GUI 智能體項目。Mano 是西班牙語里“手”的意思,P 有兩重含義:Person(個體)與 Party(組織)——我們相信,無論個人還是企業,都能夠創造屬于自己的個性化 AI。其三階段開源計劃正在逐步釋放完整的技術棧:Phase 1 開源 CUA Skills,Phase 2 開源本地模型 + Python SDK,Phase 3 開源訓練方法 + 剪枝量化技術。

一句話概括:Mano-P 是一雙 AI 的手,能像人類一樣看屏幕、理解界面、操作電腦,而且完全跑在你自己的設備上。

Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦

它不是 RPA

和傳統 RPA(機器人流程自動化)相比,Mano-P 有本質區別:

維度傳統 RPAMano-P
工作方式依賴 API 和預設規則純視覺理解,像人一樣“看”界面
界面變化界面改版需重新配置自適應,理解語義而非像素坐標
覆蓋范圍僅支持有 API 的系統能操作任何人類可操作的軟件
遺留系統無法處理老舊系統通過視覺交互,無需 API 接口
部署方式通常需要服務器本地設備即可運行

二、72B 屠榜,4B 上機:五項基準測試,多項全球領先

Mano-P 不是一個概念產品——它的能力經過了權威基準測試的嚴格驗證。

核心成績單

基準測試Mano-P 成績排名說明
OSWorld(專用模型)58.2%全球第一領先第二名 OpenCUA-72b(45.0%)13.2 個百分點
OSWorld(全部模型)58.2%第五前四均為千億參數級通用大模型
WebRetriever Protocol I41.7 NavEval全球第一超越 Gemini 2.5 Pro(40.9)和 Claude 4.5 CU(31.3)
ScreenSpot-V293.5SOTAGUI 元素定位精度
MMBench87.5SOTA多模態理解綜合評測
UI-Vision46.6SOTAUI 視覺理解
OS-World-G69.5SOTAGUI Grounding 定位能力
端側推理(4B, M4 Pro)476 tokens/s 預填充峰值內存 4.3GB,解碼 76 tokens/s

一句話總結:72B 模型屠榜證明技術實力,蒸餾為 4B 上機證明日常可用。對于Mano-P來說,能力和便捷不是二選一。 經過專項訓練和優化的專用模型,在特定任務上完全可以比“大塊頭”更強。端側模型不等于弱模型。

Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦

三、怎么做到“又大又快”:三項核心技術

在消費級設備上運行大參數模型做 GUI 操作,靠的是三項關鍵技術突破。

GSPruning 視覺 Token 剪枝

處理高分辨率屏幕截圖時,Mano-P 智能識別關鍵信息——保留界面結構骨架和重要 UI 元素,將視覺 Token 壓縮至 12.57%。打個比方:看一張復雜的屏幕截圖,普通模型會逐像素地“讀”完整張圖,而 Mano-P 只看最重要的 13%——按鈕在哪、輸入框在哪、當前選中了什么。推理速度提升數倍,任務成功率幾乎不受影響。

混合精度量化(w4a16)

用更緊湊的方式存儲模型——權重用 4bit 存儲,激活值保留 16bit。效果:

  • 峰值內存:4.3GB(MacBook 32GB 內存綽綽有余,跑 AI 的同時還能正常辦公)
  • 預填充速度:476 tokens/s(每秒吐出約 300-400 個中文字,回答幾乎瞬間出現)
  • 解碼速度:76 tokens/s
  • 一臺 MacBook Pro 就能流暢運行

Mano-Action 雙向自增強訓練

傳統模型只做單向學習——你告訴它“點擊登錄按鈕”,它學會去找登錄按鈕。Mano-P 同時訓練兩個方向:“描述→定位”和“定位→描述”,通過循環一致性互相驗證——既能根據指令找到按鈕,也能看到按鈕說出它是什么。配合三階段漸進訓練(SFT → 離線 RL → 在線 RL),模型從“背操作手冊”進化到“真正學會操作界面”。

四、為什么端側是剛需:不只是安全,更是主動性

大多數人以為端側模型的核心賣點是“數據安全”。這沒錯,但更根本的原因是:云端 AI 不可能真正“主動”幫你。

真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了,自動幫你準備資料;看到你收到一封重要郵件,自動提醒你;發現常用的系統數據有異常,主動去核查。但這種“主動性”意味著 AI 要不停地自發運算——每隔幾分鐘檢查一次郵箱、日歷、文件。

在云端,每一次運算都消耗平臺的算力和費用。一個用戶一天可能產生上千次自發調用,乘以幾百萬用戶,服務器費用爆炸。所以云端平臺必然限制 AI 的主動性——不讓它太頻繁地自己動,因為每“主動”一次就是在燒平臺的錢。

端側模型從根本上解決了這個問題:AI 跑在你自己的設備上,用的是你自己的芯片和電。 它主動跑一萬次也不花平臺一分錢。這才是真正 7×24 貼身 AI 助手的唯一解。

Mano-P 提供本地模式和云端模式兩種推理方式。核心差異在于數據流向:

安全維度本地模式云端模式
推理位置Mac 本地 / 算力棒mano.mininglamp.com
截圖數據? 不出設備?? 發送到云端分析
離線能力? 完全離線可用? 需要聯網
主動性? 7×24 無限制運行?? 受平臺成本限制
適用場景高安全要求(金融/醫療/政務)一般場景
代碼審計? 完整開源? 完整開源

系統自動檢測本地模型配置:有本地模型用本地,沒有就自動切換云端,無縫銜接。對于金融、醫療、法律、政務等對數據安全有剛性要求的行業,本地模式不是可選項——是唯一選項。

五、三種使用方式:誰都能用

使用形式適合誰安裝方式特點
mano-cua(命令行)開發者、高級用戶brew install mano-cua終端直接運行任務
mano-client(Python SDK)Python 開發者pip install mano-client(開發中)集成到現有項目,支持異步調用
mano-skill(Agent 技能插件)AI Agent 平臺用戶OpenClaw 插件安裝Agent 編排 + GUI 執行無縫銜接

運行時,屏幕右上角顯示狀態面板,實時顯示任務進度。敏感操作執行前會要求用戶確認——AI 干活,人類監督。

六、真實應用場景

Mano-P 已經在多個場景中完成驗證:

場景 1:全自動化應用構建(Mano-afk)

系統接收自然語言需求后,自動完成需求澄清 → 技術架構設計 → 代碼生成 → 本地部署 → 多層測試(API 測試 + 視覺檢測 + 端到端 GUI 自動化測試)。測試不通過時自動定位根因、修復代碼、重新部署。全流程無需人工干預。

場景 2:商業視頻智能系統

從下發指令到視頻生成、上傳、分析、剪輯、二次評測的完整工作流。系統自主操作網頁與剪輯軟件,完成文件處理、字幕修改等精細操作,生成包含主客觀指標的分析報告。

場景 3:企業級長任務執行

支持 100+ 步驟的企業級業務流程自動化,包括跨應用數據錄入、系統間信息遷移、批量文檔處理等復雜任務,全程無需聯網。

七、開源路線圖:Apache 2.0 協議,三階段漸進開放

Mano-P 采用 Apache 2.0 開源協議——寬松且附帶專利保護的開源協議,任何人和企業都可以自由使用、修改和商用,無傳染性限制,且自動授予專利許可——企業用了不會被專利訴訟。對投資人來說,這意味著生態壁壘不靠法律鎖定,而靠技術領先和社區信任。

分三個階段漸進開放完整技術棧。其三階段開源計劃正在逐步釋放完整的技術棧:

階段開放內容說明狀態
Phase 1(當前)CUA SkillsGUI 操作的技能庫已開源
Phase 2本地模型 + Python SDK完整的端側推理能力即將開放
Phase 3訓練方法 + 剪枝量化技術讓更多團隊訓練自己的端側模型規劃中

技術論文已發布:arXiv:2509.17336 (https://arxiv.org/abs/2509.17336)

立即體驗:`brew install mano-cua`

Mano-P:全球第一的端側 GUI 智能體模型,讓 AI 在你的設備上替你操作電腦

八、常見問題

Q: Mano-P 是什么?

Mano-P 是明略科技開源的 GUI-VLA(Vision-Language-Action)智能體,設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。P 代表 Person(個體)與 Party(組織)——無論個人還是企業,都能夠創造屬于自己的個性化 AI。

Q: Mano-P 可以離線運行嗎?

可以! 在本地模式下,所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。

Q:  Mano-P需要什么硬件配置?

  • 最低要求:Mac mini 或 MacBook、Apple M4 芯片、32GB 內存
  • 替代方案:任何 Mac + Mano-P 算力棒(通過 USB 4.0+ 連接)
  • 計劃未來支持更多設備

 Q: Mano-P 與 Claude Computer Use 相比如何?

對比維度Mano-PClaude Computer Use
OSWorld58.2%(專用模型第一,全模型前五)全部模型第一(千億參數級)
WebRetriever41.7 NavEval(領先)31.3(Claude 4.5)
數據流向完全本地,截圖不出設備需上傳到云端 API
離線運行? 支持? 不支持
主動性? 7×24 無限制運行?? 受平臺算力成本限制
開源? Apache 2.0? 閉源

Mano-P 在專用模型中排名全球第一,在網頁檢索等任務上領先 Claude,且天然滿足數據安全要求。適合高安全需求場景和需要 AI 主動服務的場景。

更多詳情請登錄GitHub了解

GitHub:[github.com/Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯系我們:model@mininglamp.com

信息填寫

*手機號碼:

請選協議