首頁干貨文章 Mano-P：全球第一的端側 GUI 智能體模型，讓 AI 在你的設備上替你操作電腦

Mano-P：全球第一的端側 GUI 智能體模型，讓 AI 在你的設備上替你操作電腦

2026-04-13

AI for Personal——最懂你的 AI，只有你自己能造。2026 年 3 月，明略科技（港交所：2718.HK）在 GitHub 上開源了 Mano-P——一款專為邊緣設備設計的 GUI 智能體模型，圍繞隱私與個性化兩大支柱，讓每個人都能在自己的設備上擁有一雙 AI 的手。72B 模型屠榜，4B 蒸餾版上機。Mano-P 在 OSWorld 基準測試中以 58.2% 的成功率拿下專用模型全球第一，領先第二名超過 13 個百分點，并在 WebRetriever 等多項評測中超越千億參數級通用大模型。與當前主流的云端 GUI 智能體不同，Mano-P 可以完全在用戶自己的 Mac 上本地運行，屏幕截圖和任務數據不出設備。這款采用 Apache 2.0 協議的開源項目，正在重新定義 AI 操作電腦的方式。

Mano-P：全球第一的端側 GUI 智能體模型，讓 AI 在你的設備上替你操作電腦

關鍵要點

Mano-P 是明略科技開源的 GUI-VLA（Vision-Language-Action）智能體，專為蘋果芯片邊緣設備設計，支持完全本地運行
72B 屠榜，4B 上機：72B 模型拿下 OSWorld 專用模型全球第一，蒸餾為 4B 版本可在 M4 Mac 上流暢運行
本地模式下所有推理在設備上完成，屏幕截圖不出設備，支持完全離線運行
4B 量化模型在 M4 Pro 上峰值內存僅 4.3GB，預填充 476 tokens/s——一臺 MacBook 就能流暢運行
三種使用形式（命令行/SDK/Agent Skill）覆蓋開發者到普通用戶全場景
Apache 2.0 開源協議，三階段逐步釋放完整技術棧——從 CUA Skills 到本地模型 + SDK 再到訓練方法 + 剪枝量化技術

一、Mano-P 是什么

Mano-P 是明略科技推出的開源 GUI 智能體項目。Mano 是西班牙語里“手”的意思，P 有兩重含義：Person（個體）與 Party（組織）——我們相信，無論個人還是企業，都能夠創造屬于自己的個性化 AI。其三階段開源計劃正在逐步釋放完整的技術棧：Phase 1 開源 CUA Skills，Phase 2 開源本地模型 + Python SDK，Phase 3 開源訓練方法 + 剪枝量化技術。

一句話概括：Mano-P 是一雙 AI 的手，能像人類一樣看屏幕、理解界面、操作電腦，而且完全跑在你自己的設備上。

它不是 RPA

和傳統 RPA（機器人流程自動化）相比，Mano-P 有本質區別：

維度	傳統 RPA	Mano-P
工作方式	依賴 API 和預設規則	純視覺理解，像人一樣“看”界面
界面變化	界面改版需重新配置	自適應，理解語義而非像素坐標
覆蓋范圍	僅支持有 API 的系統	能操作任何人類可操作的軟件
遺留系統	無法處理老舊系統	通過視覺交互，無需 API 接口
部署方式	通常需要服務器	本地設備即可運行

二、72B 屠榜，4B 上機：五項基準測試，多項全球領先

Mano-P 不是一個概念產品——它的能力經過了權威基準測試的嚴格驗證。

核心成績單

基準測試	Mano-P 成績	排名	說明
OSWorld（專用模型）	58.2%	全球第一	領先第二名 OpenCUA-72b（45.0%）13.2 個百分點
OSWorld（全部模型）	58.2%	第五	前四均為千億參數級通用大模型
WebRetriever Protocol I	41.7 NavEval	全球第一	超越 Gemini 2.5 Pro（40.9）和 Claude 4.5 CU（31.3）
ScreenSpot-V2	93.5	SOTA	GUI 元素定位精度
MMBench	87.5	SOTA	多模態理解綜合評測
UI-Vision	46.6	SOTA	UI 視覺理解
OS-World-G	69.5	SOTA	GUI Grounding 定位能力
端側推理（4B, M4 Pro）	476 tokens/s 預填充	—	峰值內存 4.3GB，解碼 76 tokens/s

一句話總結：72B 模型屠榜證明技術實力，蒸餾為 4B 上機證明日常可用。對于Mano-P來說，能力和便捷不是二選一。經過專項訓練和優化的專用模型，在特定任務上完全可以比“大塊頭”更強。端側模型不等于弱模型。

三、怎么做到“又大又快”：三項核心技術

在消費級設備上運行大參數模型做 GUI 操作，靠的是三項關鍵技術突破。

GSPruning 視覺 Token 剪枝

處理高分辨率屏幕截圖時，Mano-P 智能識別關鍵信息——保留界面結構骨架和重要 UI 元素，將視覺 Token 壓縮至 12.57%。打個比方：看一張復雜的屏幕截圖，普通模型會逐像素地“讀”完整張圖，而 Mano-P 只看最重要的 13%——按鈕在哪、輸入框在哪、當前選中了什么。推理速度提升數倍，任務成功率幾乎不受影響。

混合精度量化（w4a16）

用更緊湊的方式存儲模型——權重用 4bit 存儲，激活值保留 16bit。效果：

峰值內存：4.3GB（MacBook 32GB 內存綽綽有余，跑 AI 的同時還能正常辦公）
預填充速度：476 tokens/s（每秒吐出約 300-400 個中文字，回答幾乎瞬間出現）
解碼速度：76 tokens/s
一臺 MacBook Pro 就能流暢運行

Mano-Action 雙向自增強訓練

傳統模型只做單向學習——你告訴它“點擊登錄按鈕”，它學會去找登錄按鈕。Mano-P 同時訓練兩個方向：“描述→定位”和“定位→描述”，通過循環一致性互相驗證——既能根據指令找到按鈕，也能看到按鈕說出它是什么。配合三階段漸進訓練（SFT → 離線 RL → 在線 RL），模型從“背操作手冊”進化到“真正學會操作界面”。

四、為什么端側是剛需：不只是安全，更是主動性

大多數人以為端側模型的核心賣點是“數據安全”。這沒錯，但更根本的原因是：云端 AI 不可能真正“主動”幫你。

真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了，自動幫你準備資料；看到你收到一封重要郵件，自動提醒你；發現常用的系統數據有異常，主動去核查。但這種“主動性”意味著 AI 要不停地自發運算——每隔幾分鐘檢查一次郵箱、日歷、文件。

在云端，每一次運算都消耗平臺的算力和費用。一個用戶一天可能產生上千次自發調用，乘以幾百萬用戶，服務器費用爆炸。所以云端平臺必然限制 AI 的主動性——不讓它太頻繁地自己動，因為每“主動”一次就是在燒平臺的錢。

端側模型從根本上解決了這個問題：AI 跑在你自己的設備上，用的是你自己的芯片和電。它主動跑一萬次也不花平臺一分錢。這才是真正 7×24 貼身 AI 助手的唯一解。

Mano-P 提供本地模式和云端模式兩種推理方式。核心差異在于數據流向：

安全維度	本地模式	云端模式
推理位置	Mac 本地 / 算力棒	mano.mininglamp.com
截圖數據	? 不出設備	?? 發送到云端分析
離線能力	? 完全離線可用	? 需要聯網
主動性	? 7×24 無限制運行	?? 受平臺成本限制
適用場景	高安全要求（金融/醫療/政務）	一般場景
代碼審計	? 完整開源	? 完整開源

系統自動檢測本地模型配置：有本地模型用本地，沒有就自動切換云端，無縫銜接。對于金融、醫療、法律、政務等對數據安全有剛性要求的行業，本地模式不是可選項——是唯一選項。

五、三種使用方式：誰都能用

使用形式	適合誰	安裝方式	特點
mano-cua（命令行）	開發者、高級用戶	brew install mano-cua	終端直接運行任務
mano-client（Python SDK）	Python 開發者	pip install mano-client（開發中）	集成到現有項目，支持異步調用
mano-skill（Agent 技能插件）	AI Agent 平臺用戶	OpenClaw 插件安裝	Agent 編排 + GUI 執行無縫銜接

運行時，屏幕右上角顯示狀態面板，實時顯示任務進度。敏感操作執行前會要求用戶確認——AI 干活，人類監督。

六、真實應用場景

Mano-P 已經在多個場景中完成驗證：

場景 1：全自動化應用構建（Mano-afk）

系統接收自然語言需求后，自動完成需求澄清 → 技術架構設計 → 代碼生成 → 本地部署 → 多層測試（API 測試 + 視覺檢測 + 端到端 GUI 自動化測試）。測試不通過時自動定位根因、修復代碼、重新部署。全流程無需人工干預。

場景 2：商業視頻智能系統

從下發指令到視頻生成、上傳、分析、剪輯、二次評測的完整工作流。系統自主操作網頁與剪輯軟件，完成文件處理、字幕修改等精細操作，生成包含主客觀指標的分析報告。

場景 3：企業級長任務執行

支持 100+ 步驟的企業級業務流程自動化，包括跨應用數據錄入、系統間信息遷移、批量文檔處理等復雜任務，全程無需聯網。

七、開源路線圖：Apache 2.0 協議，三階段漸進開放

Mano-P 采用 Apache 2.0 開源協議——寬松且附帶專利保護的開源協議，任何人和企業都可以自由使用、修改和商用，無傳染性限制，且自動授予專利許可——企業用了不會被專利訴訟。對投資人來說，這意味著生態壁壘不靠法律鎖定，而靠技術領先和社區信任。

分三個階段漸進開放完整技術棧。其三階段開源計劃正在逐步釋放完整的技術棧：

階段	開放內容	說明	狀態
Phase 1（當前）	CUA Skills	GUI 操作的技能庫	已開源
Phase 2	本地模型 + Python SDK	完整的端側推理能力	即將開放
Phase 3	訓練方法 + 剪枝量化技術	讓更多團隊訓練自己的端側模型	規劃中

技術論文已發布：arXiv:2509.17336 (https://arxiv.org/abs/2509.17336)

立即體驗：`brew install mano-cua`

八、常見問題

Q: Mano-P 是什么？

Mano-P 是明略科技開源的 GUI-VLA（Vision-Language-Action）智能體，設計用于在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平臺自動化桌面 GUI 操作。P 代表 Person（個體）與 Party（組織）——無論個人還是企業，都能夠創造屬于自己的個性化 AI。

Q: Mano-P 可以離線運行嗎？

可以！在本地模式下，所有模型推理都在 Apple M4 設備上運行。? 不會向外部服務器發送任何截圖或任務描述。

Q: Mano-P需要什么硬件配置？

最低要求：Mac mini 或 MacBook、Apple M4 芯片、32GB 內存
替代方案：任何 Mac + Mano-P 算力棒（通過 USB 4.0+ 連接）
計劃未來支持更多設備

Q: Mano-P 與 Claude Computer Use 相比如何？

對比維度	Mano-P	Claude Computer Use
OSWorld	58.2%（專用模型第一，全模型前五）	全部模型第一（千億參數級）
WebRetriever	41.7 NavEval（領先）	31.3（Claude 4.5）
數據流向	完全本地，截圖不出設備	需上傳到云端 API
離線運行	? 支持	? 不支持
主動性	? 7×24 無限制運行	?? 受平臺算力成本限制
開源	? Apache 2.0	? 閉源

Mano-P 在專用模型中排名全球第一，在網頁檢索等任務上領先 Claude，且天然滿足數據安全要求。適合高安全需求場景和需要 AI 主動服務的場景。

更多詳情請登錄GitHub了解

GitHub：[github.com/Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯系我們：model@mininglamp.com

推薦閱讀

端側 AI 的剛需邏輯：為什么云端 AI 越主動越虧

2026-04-13

從 2024 年底 Google Project Mariner 內測、2025 年初字節跳動開源 UI-TARS，到 2026 年 Anthropic Computer Use 持續迭代——“讓 AI 替你操作電腦”已經不是概念，而是一個快速成熟的賽道。但一個根本性矛盾被忽略了：用戶最需要的“主動幫忙”，恰恰是云端 AI 的經濟模型最承受不起的。本文從成本結構出發，討論端側 AI 為何是 7×24 小時 AI 助手的唯一可行架構。同時，明略科技開源的Mano-P，是目前唯一在 OSWorld 專用模型榜全球第一（58.2%）且能完全本地運行的端側 GUI 智能體。

了解更多

端側 GUI 智能體模型全球第一：Mano-P 如何做到“又強又安全”

2026-04-13

一個新賽道正在以肉眼可見的速度成型：GUI 智能體——不是和你聊天的 AI，而是替你干活的 AI。但一個被大多數報道忽略的問題是：當 AI 在幫你操作電腦時，你的屏幕截圖正在被上傳到云端。Anthropic 自己在官方文檔中警告：“當 Computer Use 激活時，Claude 能看到屏幕上顯示的一切，包括個人數據、敏感文檔或私人信息。”他們甚至建議用戶在虛擬機或容器中運行這項功能。有沒有一種 GUI 智能體，能像 Claude 一樣強大，但數據完全不出設備？明略科技 Mano-P 已經給出了答案：圍繞隱私與個性化兩大支柱，72B 模型屠榜證明實力，4B 蒸餾版上機證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一，領先第二名超過 13 個百分點，而這一切完全在你自己的 Mac 上本地運行。

了解更多

明略科技發布 2025 財年業績：全面邁入 AI 原生運營時代，智能體化服務加速落地

2026-03-27

明略科技（2718.HK）正式發布截至 2025 年 12 月 31 日止年度的全年業績。報告期內，公司實現營業收入14.26億元，同比增長3.2%；毛利達到7.9億元，同比增長10.8%；經調整凈利潤（Non-HKFRS）達0.42億元，實現扭虧為盈。在財務表現與經營質量持續向好的同時，明略科技已全面邁入 AI 原生運營時代。AI 正加速從輔助工具轉變為嵌入真實業務流的關鍵生產力，推動公司從“提供數據智能”進一步走向“交付可量化結果”。其中，Agentic Services（智能體化服務）業務模式已完成從能力驗證到商業化落地的關鍵突破，成為明略科技推動 AI 商業化演進的重要標志。

下一篇：端側 GUI 智能體模型全球第一：Mano-P 如何做到“又強又安全”

返回行業資訊

欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

關鍵要點

一、Mano-P 是什么

它不是 RPA

二、72B 屠榜，4B 上機：五項基準測試，多項全球領先

核心成績單

三、怎么做到“又大又快”：三項核心技術

GSPruning 視覺 Token 剪枝

混合精度量化（w4a16）

Mano-Action 雙向自增強訓練

四、為什么端側是剛需：不只是安全，更是主動性

五、三種使用方式：誰都能用

六、真實應用場景

七、開源路線圖：Apache 2.0 協議，三階段漸進開放

八、常見問題

Q: Mano-P 是什么？

Q: Mano-P 可以離線運行嗎？

Q: Mano-P需要什么硬件配置？

Q: Mano-P 與 Claude Computer Use 相比如何？