首頁干貨文章 13 個榜單 SOTA！明略科技正式開源GUI-VLA 模型Mano-P 1.0

13 個榜單 SOTA！明略科技正式開源GUI-VLA 模型Mano-P 1.0

2026-04-16

近日，明略科技正式開源自研 GUI 感知智能體模型 Mano-P 1.0。Mano-P 具備 GUI 感知、理解、規(guī)劃、操作與驗證能力，可通過純視覺方式直接理解并操控桌面軟件、網(wǎng)頁界面及更復(fù)雜的圖形化工作流，并支持在 Apple M4 芯片設(shè)備上本地運行。

?? Website【 https://github.com/Mininglamp-AI/Mano-P 】??

Mano-P 讓 AI 打破了“只看不做”的局限，能夠直接在真實的圖形界面中跨平臺執(zhí)行復(fù)雜任務(wù)。該項目以 Apache 2.0 協(xié)議開源，完整代碼公開可審計，支持商業(yè)使用與二次開發(fā)。

通過提供純視覺理解與本地執(zhí)行能力，Mano-P 賦能個人開發(fā)者與企業(yè)組織能夠以低成本構(gòu)建專屬的個性化 AI，在保障數(shù)據(jù)主權(quán)的前提下，正式邁入“私有化”的個人 AI 時代。

純視覺驅(qū)動，打通復(fù)雜業(yè)務(wù)流的“最后一公里”

在現(xiàn)有技術(shù)架構(gòu)下，自動化操作往往受限于底層 API 接口調(diào)用、CDP 協(xié)議或網(wǎng)頁 HTML 解析，一旦面對非標(biāo)準(zhǔn)應(yīng)用或跨系統(tǒng)協(xié)作時便顯得力不從心。Mano-P 以純視覺理解為核心技術(shù)范式，不依賴外部接口與協(xié)議，能夠直接理解并操控桌面軟件、3D 應(yīng)用及復(fù)雜的專業(yè)工具，從根本上打破了傳統(tǒng)基于瀏覽器的生態(tài)邊界。

同時，Mano-P 可為現(xiàn)有 Agent 生態(tài)提供關(guān)鍵的執(zhí)行能力底座。目前，Mano-P 可通過 skill 形式無縫接入OpenClaw 等 AI Agent。強(qiáng)強(qiáng)聯(lián)合下，Agent 可以無縫穿梭于多窗口系統(tǒng)和跨應(yīng)用的工作流中，順滑地執(zhí)行點擊、文本輸入、窗口切換及視覺驗證等閉環(huán)動作。

這一突破解決了長期困擾 Agent 工作流的人工干預(yù)瓶頸，使模型不僅能勝任全自動應(yīng)用的構(gòu)建測試，更能向復(fù)雜的商業(yè)場景延伸，實現(xiàn)復(fù)雜任務(wù)的全程自主執(zhí)行。

13 個榜單屠榜式 SOTA，刷新GUI專用模型性能天花板

為確保前沿技術(shù)在端側(cè)設(shè)備的普惠可用，Mano-P 采用了雙版本交付架構(gòu)：由 72B 完整模型探索并證明技術(shù)上限，同時提供 4B 量化模型（w4a16）以滿足極致的端側(cè)部署需求。

Mano-P 1.0 以 72B 參數(shù)量的完整模型版本，在全球多模態(tài)領(lǐng)域的 13 個權(quán)威基準(zhǔn)測試榜單中，實現(xiàn)了針對小尺寸模型的屠榜式 SOTA 領(lǐng)先。其能力矩陣全面覆蓋了 GUI Grounding、CUA（計算機(jī)使用代理）、多模態(tài)感知認(rèn)知、視頻理解以及長上下文學(xué)習(xí)等關(guān)鍵維度，確立了端側(cè) GUI Agent 的性能標(biāo)桿。

13 個榜單 SOTA！明略科技正式開源GUI-VLA 模型Mano-P 1.0

在業(yè)界權(quán)威的 OSWorld 專有模型基準(zhǔn)測試中，Mano-P 72B 模型以 58.2% 的任務(wù)成功率位列全球第一，領(lǐng)先第二名 opencua-72b（45.0%）多達(dá) 13.2 個百分點。此外，在 ScreenSpot-V2、MMBench、UI-Vision等評測體系中，Mano-P 同樣以絕對優(yōu)勢拔得頭籌。

卓越的性能離不開底層的技術(shù)創(chuàng)新。Mano-P 引入了 SFT（監(jiān)督微調(diào)）、離線強(qiáng)化學(xué)習(xí)與在線強(qiáng)化學(xué)習(xí)的三階段漸進(jìn)式訓(xùn)練架構(gòu)，并配合專有的 GSPruning 視覺 Token 剪枝技術(shù)，實現(xiàn)了端側(cè)推理效率的飛躍。

在配備 Apple M4 Pro 芯片的設(shè)備上，4B 量化模型可實現(xiàn)高達(dá) 476 tokens/s 的預(yù)填充速度與 76 tokens/s 的解碼速度，峰值內(nèi)存占用僅為 4.3GB，完美適配主流邊緣設(shè)備的算力與存儲限制。

可端側(cè)本地部署，實現(xiàn)物理隔離級數(shù)據(jù)保護(hù)

隨著 AI 深入核心業(yè)務(wù)流，數(shù)據(jù)隱私與合規(guī)性成為企業(yè)決策的核心考量。Mano-P 可進(jìn)行本地端側(cè)部署，數(shù)據(jù)零上云，通過“純視覺理解 + 本地執(zhí)行”的架構(gòu)，能夠?qū)崿F(xiàn)數(shù)據(jù)處理與外部網(wǎng)絡(luò)的物理隔離。

在本地模式下，模型可直接在 Mac mini / MacBook（M4 芯片及以上，32GB+ 內(nèi)存）上運行，或使用 Mano-P 算力棒連接（通過 USB 4.0）。系統(tǒng)的屏幕截圖、業(yè)務(wù)流轉(zhuǎn)數(shù)據(jù)及任務(wù)指令均在本地閉環(huán)，從源頭上杜絕了面向云端服務(wù)器的傳輸風(fēng)險。

同時，Mano-P 具備強(qiáng)大的離線長任務(wù)自主規(guī)劃能力。在無網(wǎng)環(huán)境下，Mano-P同樣可以自主推進(jìn)復(fù)雜業(yè)務(wù)流程，并完成過程中的決策與糾錯。這一特性不僅重塑了人機(jī)交互的信任邊界，更使得端側(cè) AI 能夠真正進(jìn)入高安全性、高隱私要求的企業(yè)級生產(chǎn)環(huán)境。

踐行全面開源戰(zhàn)略，加速 Personalized AI 生態(tài)繁榮

技術(shù)的價值在于廣泛的應(yīng)用與生態(tài)的共建。Mano-P 遵循 Apache 2.0 協(xié)議正式開源，完整客戶端代碼全面公開并支持嚴(yán)格審計，允許商業(yè)化應(yīng)用與二次開發(fā) 。

為降低企業(yè)與個人用戶的接入成本，Mano-P 設(shè)計了三種開箱即用的使用形態(tài)，精準(zhǔn)覆蓋不同技術(shù)棧的用戶群體。無需繁瑣配置復(fù)雜的 API 密鑰，用戶均能以極低門檻構(gòu)建專屬的高性能 GUI 智能體。

按照既定開源規(guī)劃，明略科技本次率先開源 Mano-CUA 核心技能，用戶可將其便捷配置到 OpenClaw 或 Claude Code 中，以構(gòu)建更智能的 CUA 任務(wù)工作流程，并克服人工干預(yù)帶來的瓶頸。

Mano-CUA 本地模型和 SDK 組件預(yù)計將于月內(nèi)正式開源，以滿足具有高安全性開發(fā)者的需求。屆時用戶可直接調(diào)用本地化部署的 GUI-VLA 模型來構(gòu)建自定義技能與工具，所有 CUA 操作都將在本地 Mac 設(shè)備上執(zhí)行，而不會上傳到外部服務(wù)器。

未來，明略科技還將全面開源 Mano-P 模型底層的訓(xùn)練方法、Token 剪枝技術(shù)與混合精度量化方案，助力開發(fā)者打造符合自身業(yè)務(wù)需求的專屬本地 GUI-VLA 模型。

面向未來，從技術(shù)破局到生態(tài)共建，Mano-P 將 GUI 感知、視覺操作、本地運行與開源生態(tài)緊密結(jié)合，不僅為端側(cè)智能體夯實了堅實的技術(shù)底座，更為“Personalized AI”鋪就了一條清晰的現(xiàn)實路徑。無論是獨立開發(fā)者，還是對安全要求嚴(yán)苛的企業(yè)組織，都能以更低的門檻、更高的可控性，打造個性化 AI。明略科技正以開放之姿，讓“人人可以創(chuàng)造專屬AI ”的愿景逐漸照進(jìn)現(xiàn)實。

推薦閱讀

香港特首李家超一行蒞臨世界互聯(lián)網(wǎng)大會亞太峰會明略科技展臺交流，共話AI賦能產(chǎn)業(yè)發(fā)展

2026-04-17

4月13日，2026年世界互聯(lián)網(wǎng)大會亞太峰會在香港會議展覽中心開幕。明略科技（2718.HK）攜Agentic AI核心技術(shù)成果亮相本屆峰會。峰會開幕式期間，中華人民共和國香港特別行政區(qū)行政長官李家超，世界互聯(lián)網(wǎng)大會理事長、中華人民共和國互聯(lián)網(wǎng)信息辦公室主任莊榮文，中央人民政府駐香港特別行政區(qū)聯(lián)絡(luò)辦公室主任、香港特別行政區(qū)維護(hù)國家安全委員會國家安全事務(wù)顧問周霽一行蒞臨明略科技展臺參觀。明略科技香港總經(jīng)理張曉向到訪領(lǐng)導(dǎo)介紹了公司在數(shù)據(jù)智能與AI領(lǐng)域的核心技術(shù)能力及在港業(yè)務(wù)進(jìn)展。

了解更多

AI?時代的數(shù)據(jù)安全：為什么“不上云”是最好的隱私方案

2026-04-16

當(dāng)你使用云端 AI 助手操作電腦時,你的屏幕截圖正在被上傳到遠(yuǎn)程服務(wù)器。這不是隱私政策的漏洞,而是云端 AI 技術(shù)架構(gòu)的必然結(jié)果。本文揭示了云端 AI 的數(shù)據(jù)流轉(zhuǎn)鏈條：從屏幕截圖采集、網(wǎng)絡(luò)傳輸、服務(wù)器處理到日志存儲,每個環(huán)節(jié)都是潛在的數(shù)據(jù)泄露點。真正的數(shù)據(jù)安全不依賴于"承諾不看",而是架構(gòu)上"不可能看到"。Mano-P 作為目前唯一在端側(cè)運行、OSWorld 專用模型全球第一的開源 GUI Agent,通過端側(cè)推理實現(xiàn)數(shù)據(jù)零外傳，所有計算在本地完成,支持完全離線運行,Apache 2.0 開源協(xié)議代碼可審計。在 AI 時代,數(shù)據(jù)安全和 AI 能力不需要二選一——端側(cè)方案已經(jīng)證明可以做到頂尖水平。

了解更多

Computer Use?完全指南：AI?替你操作電腦的四種路線

2026-04-15

2024?年?10?月，Anthropic?首次公開?Claude Computer Use?功能。2025?年?1?月，OpenAI?跟進(jìn)發(fā)布?CUA（Computer Using Agent）。一個新品類正式誕生：Computer Use——讓?AI?像人類一樣看到屏幕、移動鼠標(biāo)、點擊按鈕、操作軟件。Computer Use?不是簡單的自動化腳本。傳統(tǒng)的?RPA?需要為每個系統(tǒng)寫專用規(guī)則，界面一改就失效。而?Computer Use?方案基于視覺理解，AI “看懂”屏幕內(nèi)容后自主決策下一步操作，就像一個坐在你旁邊的助手。這意味著什么？意味著你不再需要?API、不再需要編程、不再需要為每個軟件單獨配置，只要是人類能在屏幕上操作的軟件，Computer Use?就能替你完成。

了解更多

上一篇：Computer Use?完全指南：AI?替你操作電腦的四種路線

下一篇：AI?時代的數(shù)據(jù)安全：為什么“不上云”是最好的隱私方案

返回行業(yè)資訊

欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

純視覺驅(qū)動，打通復(fù)雜業(yè)務(wù)流的“最后一公里”

13 個榜單屠榜式 SOTA，刷新GUI專用模型性能天花板

可端側(cè)本地部署，實現(xiàn)物理隔離級數(shù)據(jù)保護(hù)

踐行全面開源戰(zhàn)略，加速 Personalized AI 生態(tài)繁榮