13 個榜單 SOTA!明略科技正式開源GUI-VLA 模型Mano-P 1.0
2026-04-16
近日,明略科技正式開源自研 GUI 感知智能體模型 Mano-P 1.0。Mano-P 具備 GUI 感知、理解、規(guī)劃、操作與驗證能力,可通過純視覺方式直接理解并操控桌面軟件、網(wǎng)頁界面及更復(fù)雜的圖形化工作流,并支持在 Apple M4 芯片設(shè)備上本地運行。
?? Website【 https://github.com/Mininglamp-AI/Mano-P 】??
Mano-P 讓 AI 打破了“只看不做”的局限,能夠直接在真實的圖形界面中跨平臺執(zhí)行復(fù)雜任務(wù)。該項目以 Apache 2.0 協(xié)議開源,完整代碼公開可審計,支持商業(yè)使用與二次開發(fā)。
通過提供純視覺理解與本地執(zhí)行能力,Mano-P 賦能個人開發(fā)者與企業(yè)組織能夠以低成本構(gòu)建專屬的個性化 AI,在保障數(shù)據(jù)主權(quán)的前提下,正式邁入“私有化”的個人 AI 時代。
在現(xiàn)有技術(shù)架構(gòu)下,自動化操作往往受限于底層 API 接口調(diào)用、CDP 協(xié)議或網(wǎng)頁 HTML 解析,一旦面對非標(biāo)準(zhǔn)應(yīng)用或跨系統(tǒng)協(xié)作時便顯得力不從心。Mano-P 以純視覺理解為核心技術(shù)范式 ,不依賴外部接口與協(xié)議,能夠直接理解并操控桌面軟件、3D 應(yīng)用及復(fù)雜的專業(yè)工具,從根本上打破了傳統(tǒng)基于瀏覽器的生態(tài)邊界 。
同時,Mano-P 可為現(xiàn)有 Agent 生態(tài)提供關(guān)鍵的執(zhí)行能力底座。目前,Mano-P 可通過 skill 形式無縫接入OpenClaw 等 AI Agent。強(qiáng)強(qiáng)聯(lián)合下,Agent 可以無縫穿梭于多窗口系統(tǒng)和跨應(yīng)用的工作流中,順滑地執(zhí)行點擊、文本輸入、窗口切換及視覺驗證等閉環(huán)動作。
這一突破解決了長期困擾 Agent 工作流的人工干預(yù)瓶頸,使模型不僅能勝任全自動應(yīng)用的構(gòu)建測試,更能向復(fù)雜的商業(yè)場景延伸,實現(xiàn)復(fù)雜任務(wù)的全程自主執(zhí)行。
為確保前沿技術(shù)在端側(cè)設(shè)備的普惠可用,Mano-P 采用了雙版本交付架構(gòu):由 72B 完整模型探索并證明技術(shù)上限,同時提供 4B 量化模型(w4a16)以滿足極致的端側(cè)部署需求 。
Mano-P 1.0 以 72B 參數(shù)量的完整模型版本,在全球多模態(tài)領(lǐng)域的 13 個權(quán)威基準(zhǔn)測試榜單中,實現(xiàn)了針對小尺寸模型的屠榜式 SOTA 領(lǐng)先 。其能力矩陣全面覆蓋了 GUI Grounding、CUA(計算機(jī)使用代理)、多模態(tài)感知認(rèn)知、視頻理解以及長上下文學(xué)習(xí)等關(guān)鍵維度,確立了端側(cè) GUI Agent 的性能標(biāo)桿 。

在業(yè)界權(quán)威的 OSWorld 專有模型基準(zhǔn)測試中,Mano-P 72B 模型以 58.2% 的任務(wù)成功率位列全球第一,領(lǐng)先第二名 opencua-72b(45.0%)多達(dá) 13.2 個百分點 。此外,在 ScreenSpot-V2、MMBench、UI-Vision等評測體系中,Mano-P 同樣以絕對優(yōu)勢拔得頭籌 。
卓越的性能離不開底層的技術(shù)創(chuàng)新。Mano-P 引入了 SFT(監(jiān)督微調(diào))、離線強(qiáng)化學(xué)習(xí)與在線強(qiáng)化學(xué)習(xí)的三階段漸進(jìn)式訓(xùn)練架構(gòu),并配合專有的 GSPruning 視覺 Token 剪枝技術(shù),實現(xiàn)了端側(cè)推理效率的飛躍。
在配備 Apple M4 Pro 芯片的設(shè)備上,4B 量化模型可實現(xiàn)高達(dá) 476 tokens/s 的預(yù)填充速度與 76 tokens/s 的解碼速度,峰值內(nèi)存占用僅為 4.3GB,完美適配主流邊緣設(shè)備的算力與存儲限制。
隨著 AI 深入核心業(yè)務(wù)流,數(shù)據(jù)隱私與合規(guī)性成為企業(yè)決策的核心考量。Mano-P 可進(jìn)行本地端側(cè)部署,數(shù)據(jù)零上云 ,通過“純視覺理解 + 本地執(zhí)行”的架構(gòu),能夠?qū)崿F(xiàn)數(shù)據(jù)處理與外部網(wǎng)絡(luò)的物理隔離。
在本地模式下,模型可直接在 Mac mini / MacBook(M4 芯片及以上,32GB+ 內(nèi)存)上運行,或使用 Mano-P 算力棒連接(通過 USB 4.0)。系統(tǒng)的屏幕截圖、業(yè)務(wù)流轉(zhuǎn)數(shù)據(jù)及任務(wù)指令均在本地閉環(huán),從源頭上杜絕了面向云端服務(wù)器的傳輸風(fēng)險 。
同時,Mano-P 具備強(qiáng)大的離線長任務(wù)自主規(guī)劃能力。在無網(wǎng)環(huán)境下,Mano-P同樣可以自主推進(jìn)復(fù)雜業(yè)務(wù)流程,并完成過程中的決策與糾錯。這一特性不僅重塑了人機(jī)交互的信任邊界,更使得端側(cè) AI 能夠真正進(jìn)入高安全性、高隱私要求的企業(yè)級生產(chǎn)環(huán)境 。
技術(shù)的價值在于廣泛的應(yīng)用與生態(tài)的共建。Mano-P 遵循 Apache 2.0 協(xié)議正式開源,完整客戶端代碼全面公開并支持嚴(yán)格審計,允許商業(yè)化應(yīng)用與二次開發(fā) 。
為降低企業(yè)與個人用戶的接入成本,Mano-P 設(shè)計了三種開箱即用的使用形態(tài),精準(zhǔn)覆蓋不同技術(shù)棧的用戶群體。無需繁瑣配置復(fù)雜的 API 密鑰,用戶均能以極低門檻構(gòu)建專屬的高性能 GUI 智能體。
按照既定開源規(guī)劃,明略科技本次率先開源 Mano-CUA 核心技能,用戶可將其便捷配置到 OpenClaw 或 Claude Code 中,以構(gòu)建更智能的 CUA 任務(wù)工作流程,并克服人工干預(yù)帶來的瓶頸。

Mano-CUA 本地模型和 SDK 組件預(yù)計將于月內(nèi)正式開源,以滿足具有高安全性開發(fā)者的需求。屆時用戶可直接調(diào)用本地化部署的 GUI-VLA 模型來構(gòu)建自定義技能與工具,所有 CUA 操作都將在本地 Mac 設(shè)備上執(zhí)行,而不會上傳到外部服務(wù)器。
未來,明略科技還將全面開源 Mano-P 模型底層的訓(xùn)練方法、Token 剪枝技術(shù)與混合精度量化方案,助力開發(fā)者打造符合自身業(yè)務(wù)需求的專屬本地 GUI-VLA 模型。
面向未來,從技術(shù)破局到生態(tài)共建,Mano-P 將 GUI 感知、視覺操作、本地運行與開源生態(tài)緊密結(jié)合,不僅為端側(cè)智能體夯實了堅實的技術(shù)底座,更為“Personalized AI”鋪就了一條清晰的現(xiàn)實路徑。無論是獨立開發(fā)者,還是對安全要求嚴(yán)苛的企業(yè)組織,都能以更低的門檻、更高的可控性,打造個性化 AI。明略科技正以開放之姿,讓“人人可以創(chuàng)造專屬AI ”的愿景逐漸照進(jìn)現(xiàn)實。
信息填寫