欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

EN

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

2025-09-28

明略科技的專有 GUI 大模型 Mano 在行業(yè)公認(rèn)的 Mind2Web 和 OSWorld 兩大挑戰(zhàn)性基準(zhǔn)測試中,均取得了創(chuàng)紀(jì)錄的 SOTA 成績。通過在線強(qiáng)化學(xué)習(xí)和訓(xùn)練數(shù)據(jù)自動采集兩大核心創(chuàng)新,Mano 為整個 GUI 智能體領(lǐng)域提供了一套可擴(kuò)展、可持續(xù)進(jìn)化的新范式。

40.1% 成功率

一次即刷新 GUI 智能體新高度

我們正在把越來越多的時間交給屏幕。有人算過,人一生中耗在手機(jī)上的時間接近 9 年;如果你的工作離不開電腦,這個數(shù)字只會更高。時間碎片化,注意力也被點擊、勾選、復(fù)制粘貼這些瑣碎操作蠶食。

如果,這些操作都能交給 Agent 呢?點開網(wǎng)頁、登錄賬號、抓取數(shù)據(jù)、填寫表單、提交流程,全程無人值守,你還有理由再手動點鼠標(biāo)嗎?

這背后的市場熱度,早已撲面而來。無論是剛落幕的 2025 外灘大會,還是財新亞洲愿景論壇,Agent 都是全場最高頻的熱詞,不少觀點認(rèn)為:

真正有用的 Agent,必須學(xué)會使用手機(jī)和電腦,像人一樣讀懂并操作?GUI。

畢竟,你不能靠一句簡短的指令就把所有消費記錄從大廠數(shù)據(jù)庫里提取出來。

也不能僅憑單一指令完成登錄支付寶、微信、淘寶下載賬單,并調(diào)用 Excel 進(jìn)行數(shù)據(jù)清理,完成對過去一年消費習(xí)慣分析的操作。

一個只能給出口頭建議,卻不能替你登錄、獲取數(shù)據(jù)的助理,價值注定「骨折」。

在這場 GUI Agent 競賽中,中美巨頭紛紛下場,但成功率低下成了繞不過去的硬傷:眼花繚亂的界面、多變的交互邏輯,讓瀏覽器自動化操作,遠(yuǎn)比生成一段流暢文字要難得多。

所以,當(dāng)明略科技帶著擁有雙榜 SOTA(當(dāng)前最先進(jìn))成績的 Mano 出場時,就顯得格外吸睛。這一成績不僅讓 Mano 成為通用 GUI 智能體的新范式,也意味著自動化邊界又被推遠(yuǎn)了一大步。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中取得 SOTA。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

值得一提的是,Mano 僅在一次運行中就取得了 OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中 40.1% 的成功率,非常令人驚喜。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

?? 榜單鏈接:https://os-world.github.io/

?? 技術(shù)報告鏈接:http://m.buysellhub.cn/news/6394/

Mano 登頂雙榜

近日,明略科技推出的基于多模態(tài)基礎(chǔ)模型的網(wǎng)頁 GUI 智能體 Mano,憑借其強(qiáng)大的性能,在行業(yè)內(nèi)公認(rèn)的兩大挑戰(zhàn)基準(zhǔn) ——Mind2Web 和 OSWorld 上同時刷新紀(jì)錄,取得當(dāng)前最佳成績(SOTA)

首先,在網(wǎng)頁端的 Mind2Web 上,Mano 展示出「看得準(zhǔn)、做得成的核心優(yōu)勢。

Mind2Web 覆蓋 137 個網(wǎng)站、2350+ 真實任務(wù),從填寫表格到訂機(jī)票、再到在線購物,應(yīng)有盡有,旨在考察智能體能否在復(fù)雜多變的 DOM 結(jié)構(gòu)里精準(zhǔn)找到目標(biāo)元素,并完成整個操作鏈。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
Mind2Web 覆蓋 137 個網(wǎng)站、2350+ 真實任務(wù),從填寫表格到訂機(jī)票、再到在線購物,應(yīng)有盡有

技術(shù)報告顯示,Mano 在三個關(guān)鍵指標(biāo)上,均表現(xiàn)不俗。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

在元素精度 (Ele.Acc)和步驟成功率(Step SR)上遙遙領(lǐng)先 —— 兩項指標(biāo)顯著超越了所有 SOTA 的方法。這表明它在準(zhǔn)確識別和定位界面元素,以及成功執(zhí)行多步任務(wù)的能力上達(dá)到了新高度。

Mano 在操作 F1 (Op.F1) 指標(biāo)上與此前頂尖模型持平甚至略高,這表明它的核心優(yōu)勢并非僅僅來自對操作類型的判斷能力,而是能夠真正將復(fù)雜任務(wù)轉(zhuǎn)化為成功的操作序列。

更難的挑戰(zhàn)來自桌面端。OSWorld-Verified 涵蓋了 369 個跨應(yīng)用任務(wù),覆蓋 10 類應(yīng)用,包含瀏覽器,辦公軟件等多個類型,每一個操作都和真實桌面場景無縫對接,被認(rèn)為是桌面智能體測評界的「珠峰」。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
OSWorld-Verified 作為一個基準(zhǔn)測試集,旨在評估模型能否在真實部署場景下完成從頭到尾的、復(fù)雜的任務(wù)鏈條。

技術(shù)報告顯示,在 OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中,Mano 直接把成功率拉到 41.6±0.7%,超過同表所列的 qwen、GUI-Owl、opencua 等模型。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

在 Max Steps=100 的配置下(Mano Runs=2),其均值達(dá)到 41.6,標(biāo)準(zhǔn)差僅 ±0.7;而 UI-TARS-7B 為 27.4±2.2,opencua-32b 在 3 次 Runs 下為 34.8±0.8。

Mano 在均值上提升約 7 個百分點,整體任務(wù)通過率有顯著提升。

秘笈之一:

首提在線強(qiáng)化學(xué)習(xí),引領(lǐng)質(zhì)變

Mano 在 GUI 交互領(lǐng)域首次提出了在線強(qiáng)化學(xué)習(xí)的訓(xùn)練范式,并推出訓(xùn)練數(shù)據(jù)自動采集的「探索器」,這兩大核心創(chuàng)新為其實現(xiàn)前所未有的圖形界面交互性能,奠定了堅實基礎(chǔ)。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
Mano 整體框架分為三大部分,探索模塊、處理流程以及優(yōu)化流程。探索模塊關(guān)注如何獲取訓(xùn)練數(shù)據(jù),處理流程揭示了 Mano 操作網(wǎng)頁或電腦的過程。右側(cè)優(yōu)化流程是「訓(xùn)練時的優(yōu)化策略」,通過 SFT、離線強(qiáng)化學(xué)習(xí)和在線強(qiáng)化學(xué)習(xí)的三步走,增強(qiáng)模型在動態(tài) GUI 環(huán)境中的推理能力、適應(yīng)性,以及端到端的決策能力。

我們先來嘮嘮 Mano 制霸的決勝因素之一 ——?領(lǐng)域首創(chuàng)的在線強(qiáng)化學(xué)習(xí)

自 DeepSeek 橫空出世以來,GRPO 已經(jīng)成為了強(qiáng)化學(xué)習(xí)黃金范式。這不僅限于大語言模型的范圍內(nèi),在多種任務(wù)領(lǐng)域的智能體模型的訓(xùn)練中都已經(jīng)有了廣泛的應(yīng)用。

現(xiàn)有的模型訓(xùn)練大多局限在離線強(qiáng)化學(xué)習(xí)的范疇,在這種模式下,模型深度依賴于事先收集好的數(shù)據(jù)集進(jìn)行訓(xùn)練。通過離線強(qiáng)化學(xué)習(xí),我們能夠充分利用大量歷史數(shù)據(jù)來訓(xùn)練智能體,從而提高模型的推理決策能力,這也是 DeepSeek 驗證成功的技術(shù)模式。

回到 Mano 的技術(shù)框架,其優(yōu)化流程是一個漸進(jìn)式的分布策略:

  • 第一階段,監(jiān)督微調(diào)(SFT),使用來自真實數(shù)據(jù)和跨多個網(wǎng)站與操作系統(tǒng)的模擬環(huán)境的精細(xì)處理交互數(shù)據(jù),對模型進(jìn)行全參數(shù)的 SFT,得到初始模型 Mano-SFT。

  • 第二階段,與 DeepSeek 等大模型采用的訓(xùn)練模式類似,Mano 采用離線強(qiáng)化學(xué)習(xí),結(jié)合 GRPO 方法進(jìn)行微調(diào),得到中間模型 Mano-Off。

以上兩個階段已經(jīng)能夠?qū)崿F(xiàn)一個具有強(qiáng)大推理決策能力,具備高效交互能力的高質(zhì)量模型了。

但在 GUI 交互智能體領(lǐng)域,任務(wù)特性決定了模型任何形式的操作都需要與真實的系統(tǒng)交互環(huán)境緊密結(jié)合,最終都要應(yīng)用在實際操作系統(tǒng)的真實環(huán)境里。

技術(shù)團(tuán)隊在實際驗證過程中認(rèn)為,僅通過以上兩個階段的訓(xùn)練,仍然不足以達(dá)到具備足夠靈活性和適應(yīng)性的要求。

為此,他們分享道,Mano 模型需要正的接入操作系統(tǒng)的真實環(huán)境里,需要通過不停地與環(huán)境交互,在交互過程中采樣到更豐富的真實軌跡來彌補(bǔ)離線訓(xùn)練樣本的單一性和稀疏性」

因此,在兩階段訓(xùn)練的模型基礎(chǔ)上,他們在 GUI 領(lǐng)域里開創(chuàng)性的提出了在線強(qiáng)化學(xué)習(xí)的策略,構(gòu)建了 GUI 領(lǐng)域強(qiáng)化學(xué)習(xí)的新范式。

簡單來說,在線強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一種形式。智能體根據(jù)當(dāng)前的狀態(tài)選擇一個行動,然后從環(huán)境中獲得相應(yīng)的獎勵以及新的狀態(tài)。這些反饋會被用來更新智能體的策略。

在線學(xué)習(xí)的一個顯著特點是:智能體需要在每個時刻都依賴最新數(shù)據(jù)進(jìn)行學(xué)習(xí),同時不斷在探索(嘗試新的行動以獲取信息)和利用(基于已有知識采取最優(yōu)行動)之間尋找平衡。

大家是否還記得當(dāng)年 OpenAI 開發(fā)的用來玩 Dota 2 的 AI 系統(tǒng) OpenAI Five ?

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代

這個系統(tǒng)的訓(xùn)練模式就是在真實游戲環(huán)境中采取自我對戰(zhàn)的模式進(jìn)行在線學(xué)習(xí),智能體不斷與自己或多個實例對戰(zhàn),產(chǎn)生新的游戲數(shù)據(jù)。每場對戰(zhàn)都會生成大量的經(jīng)驗,最終戰(zhàn)勝職業(yè)游戲選手。

這種訓(xùn)練邏輯與 GUI 交互智能體的訓(xùn)練邏輯有異曲同工之妙,Mano 也需要在真實的交互環(huán)境中進(jìn)行不斷強(qiáng)化以提高適應(yīng)性和靈活性。

為此,技術(shù)團(tuán)隊建立了一個模擬環(huán)境池,讓模型能夠與真實環(huán)境交互,包括瀏覽器環(huán)境(BUA)和桌面環(huán)境(CUA)。通過模擬環(huán)境,模型能夠在「真實交互」中采集更多樣化的環(huán)境數(shù)據(jù),彌補(bǔ)離線軌跡分布稀疏的問題。

技術(shù)團(tuán)隊自建模擬環(huán)境中部署的在線強(qiáng)化學(xué)習(xí),同樣基于 GRPO,但使用了更注重實時適應(yīng)性和動態(tài)探索的獎勵機(jī)制。

在此過程中,智能體通過在線試驗收集新的交互數(shù)據(jù),這些數(shù)據(jù)會被循環(huán)回流到離線訓(xùn)練階段進(jìn)行進(jìn)一步優(yōu)化,實現(xiàn)持續(xù)改進(jìn)和迭代更新。

最終得到的 Mano 模型在多樣化的 Web GUI 場景中展現(xiàn)出更強(qiáng)的魯棒性。

眾所周知,在線強(qiáng)化學(xué)習(xí)存在交互時間成本過高和缺乏靈活采樣的缺陷。為了降低成本,明略科技的技術(shù)團(tuán)隊并沒有采用在線交互 + 即時更新的方式,而是采用在線采樣 + 離線過濾的方式:

先收集軌跡,再過濾噪聲數(shù)據(jù),可以動態(tài)調(diào)節(jié)任務(wù)難度分布,避免過多失敗軌跡導(dǎo)致的學(xué)習(xí)效率低下問題。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
Mano 中在線強(qiáng)化學(xué)習(xí)的整體框架

在完整的在線強(qiáng)化學(xué)習(xí)流程中,Mano 模型與多個并行的 Playwright 實例交互,每個實例對應(yīng)一個獨立的 GUI 環(huán)境。

每一步中,模型會獲取環(huán)境狀態(tài)與截圖,進(jìn)行推理生成「思考」與「行動」,并在對應(yīng)環(huán)境中執(zhí)行該動作。該循環(huán)會持續(xù),直到任務(wù)完成。

同時,系統(tǒng)會記錄記憶軌跡,并將完整的交互軌跡導(dǎo)出,用于后續(xù)的訓(xùn)練與分析。

消融實驗結(jié)果顯示,增加了在線強(qiáng)化學(xué)習(xí)的步驟后,模型在 OSWorld-Verified 數(shù)據(jù)集上的平均分?jǐn)?shù)產(chǎn)生了一個顯著的飛躍,相比離線強(qiáng)化學(xué)習(xí)的模型結(jié)果提升了 7.9,達(dá)到 41.6

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
在 OSWorld-Verified 上,不同訓(xùn)練階段的性能對比。

同時,由 SFT 到離線強(qiáng)化學(xué)習(xí),再到在線強(qiáng)化學(xué)習(xí)的三個階段可以迭代循環(huán),直到在驗證集上的性能提升趨于飽和。于是得到 Mano 最終模型。

秘笈之二:

智能探索,采集真實環(huán)境軌跡

要實現(xiàn)高質(zhì)量的在線強(qiáng)化學(xué)習(xí)訓(xùn)練,不僅要求模型具備在真實環(huán)境中進(jìn)行探索和交互的能力,還需要海量的交互軌跡數(shù)據(jù)作為支撐。Mano 第二大創(chuàng)新正是聚焦于模型數(shù)據(jù)獲取和軌跡采集。

大模型雖然能理解籠統(tǒng)的指令,但在需要復(fù)雜、多步驟操作的目標(biāo)驅(qū)動型任務(wù)中,它往往無法獨立地將大目標(biāo)分解為具體的執(zhí)行步驟:

你說:「幫我買一瓶礦泉水。」他反而會問:「我需要先打開哪個網(wǎng)站?然后要搜索什么?點擊哪個按鈕?」

這時,開發(fā)者必須像教小孩一樣,手把手地告訴模型每一步該怎么做,極大地增加了開發(fā)工作量。

因此,研發(fā)人員迫切需要為交互任務(wù)構(gòu)建專用的模型和智能體。而在這一過程中,海量的高質(zhì)量交互軌跡數(shù)據(jù)是不可或缺的。過去,這類數(shù)據(jù)往往需要通過人工構(gòu)建或標(biāo)注,成本高、耗時長。明略的技術(shù)團(tuán)隊則設(shè)計了訓(xùn)練數(shù)據(jù)自動采集的方法,從根本上提升了數(shù)據(jù)收集的效率和準(zhǔn)確性。

首先,技術(shù)團(tuán)隊搭建了一個可擴(kuò)展的虛擬環(huán)境集群,用于模擬多種交互場景。針對每個目標(biāo)應(yīng)用,無論是網(wǎng)頁 URL 還是桌面軟件模塊,團(tuán)隊通過大語言模型自動生成目標(biāo)清單,并對目標(biāo)進(jìn)行優(yōu)先級排序,過濾掉使用頻率極低的功能,為后續(xù)探索提供明確的上下文指導(dǎo)。

在元素提取方面,團(tuán)隊為網(wǎng)頁環(huán)境定制了 Chrome 插件「Mano-C」,該插件能夠全面提取網(wǎng)頁中的交互元素,捕捉其空間坐標(biāo)與語義屬性。

通過系統(tǒng)化的 DOM 樹遍歷,識別出網(wǎng)頁中的可交互元素,并設(shè)計了多層級過濾機(jī)制,排除視窗外的元素,檢查 CSS 屬性,剔除不可見元素,并過濾掉極小尺寸的隱形追蹤元素。

對于桌面環(huán)境,則采用 A11y Tree 解析與 OmniParseV2 協(xié)同過濾的方法,確保覆蓋更多交互元素,尤其是那些單一方法可能遺漏的元素。

在數(shù)據(jù)標(biāo)注方面,技術(shù)團(tuán)隊利用大語言模型為每個提取的元素生成語義標(biāo)簽、功能描述及交互類別,形成結(jié)構(gòu)化的語義對齊數(shù)據(jù),為后續(xù)的訓(xùn)練提供了有效的監(jiān)督信號。

為了讓數(shù)據(jù)采集更具智能性,他們設(shè)計了基于 Prompt 的探索模塊,用于智能選擇交互元素,并引入顯式約束,避免路徑循環(huán)和冗余分支。

探索過程中,采用深度優(yōu)先搜索(DFS)策略,最大深度設(shè)為 10 層,從而在探索覆蓋率和計算效率之間找到平衡。

每個探索狀態(tài)下,系統(tǒng)會截取截圖并保存帶注釋的交互數(shù)據(jù)。

完成探索后,團(tuán)隊又設(shè)計了一套軌跡評估機(jī)制,以篩選出高質(zhì)量的交互序列。

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
自動化引擎架構(gòu)示意圖

簡而言之,這個自動化的工作流程如同一次網(wǎng)頁探索

系統(tǒng)首先會打開不同的網(wǎng)址,識別可點擊或輸入的元素,并通過插件抓取網(wǎng)頁中的交互元素,同時收集該元素的描述及 DOM 信息,并利用大語言模型生成語義對齊數(shù)據(jù)。

接下來,系統(tǒng)會從這些候選元素中挑選目標(biāo),開始逐步探索。整個過程會不斷循環(huán),每一步都會檢查是否已達(dá)到最大探索深度,若未達(dá)到,則繼續(xù)進(jìn)行探索。

通過這兩個核心創(chuàng)新,團(tuán)隊實現(xiàn)了數(shù)據(jù)采集的循環(huán)更新

全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
數(shù)據(jù)循環(huán)示意圖

SOTA 背后,厚積薄發(fā)

隨著 2025 年 AI Agent 需求的爆發(fā),明略科技依托自研的大模型和獨有數(shù)據(jù)資產(chǎn),推出商業(yè)數(shù)據(jù)分析智能體?DeepMiner

其核心亮點在于能夠獲取更完整、實時的數(shù)據(jù),為數(shù)據(jù)分析報告和深度研究提供更有力支持。而這一核心優(yōu)勢背后,正是 Mano 的技術(shù)支撐。

目前市面上大多數(shù) AI Agent(如 Manus、GenSpark)獲取數(shù)據(jù)的方式較為傳統(tǒng),通常依賴平臺開發(fā) API 或通過 MCP 協(xié)議直接抓取數(shù)據(jù),因此,數(shù)據(jù)來源缺乏獨特性和壁壘。

真正的競爭壁壘來自于那些既沒有開放 API,又沒有 MCP 協(xié)議的專業(yè)網(wǎng)站。一般來說,這些數(shù)據(jù)只能通過用戶手動登錄賬戶,設(shè)置條件后才能獲取。

例如,在亞馬遜后臺,用戶需要手動選擇最近 30 天的數(shù)據(jù)、輸入關(guān)鍵詞、根據(jù)流量趨勢進(jìn)行排序,才能篩選出所需數(shù)據(jù)。

為了能夠訪問這些其他同類 Agent 無法觸及的數(shù)據(jù)源,Mano 應(yīng)運而生,成為差異化競爭中的關(guān)鍵角色

而這一通用 GUI 智能體的 SOTA 表現(xiàn),源于明略科技多年來在多模態(tài)大模型和數(shù)據(jù)智能領(lǐng)域的積淀。

幾年前,明略科技便開始構(gòu)建知識圖譜,將「事件」、「時間」、「空間」等要素融入其中,為多模態(tài)信息的深度關(guān)聯(lián)和邏輯推理打下了基礎(chǔ)。

接著,通過自然語言處理和機(jī)器學(xué)習(xí),明略科技將企業(yè)數(shù)據(jù)轉(zhuǎn)化為可操作的商業(yè)洞察,涵蓋從營銷到運營管理等多個應(yīng)用場景,推動技術(shù)與商業(yè)的深度融合。

2024 年,明略科技的超圖多模態(tài)大語言模型(HMLLM)和 Video-SME 數(shù)據(jù)集榮獲 ACM MM 2024 最佳論文提名,并在腦電圖、眼動等非標(biāo)模態(tài)數(shù)據(jù)處理領(lǐng)域取得顯著突破。2025 年推出的 PRE-MAP 模型進(jìn)一步推動了高分辨率個性化視覺預(yù)測。這些學(xué)術(shù)突破也為 Mano 在 GUI 智能體領(lǐng)域的出色表現(xiàn),提供了堅實的技術(shù)支撐。

作為平臺的自動化引擎,Mano 通過擬人化交互精準(zhǔn)完成各類復(fù)雜網(wǎng)頁操作。其核心技術(shù)突破在于,通過持續(xù)強(qiáng)化學(xué)習(xí),Mano 能夠自主適應(yīng)和探索全新的平臺與業(yè)務(wù)流程。這種高度適應(yīng)性使其能夠高效、智能地執(zhí)行網(wǎng)頁操作與數(shù)據(jù)采集任務(wù),大幅降低傳統(tǒng)自動化方案在應(yīng)對業(yè)務(wù)變更時的適配與維護(hù)成本。

未來,明略科技將繼續(xù)在數(shù)據(jù)采集、訓(xùn)練推理整合、驗證碼處理等領(lǐng)域探索,推動 Mano 在真實應(yīng)用和端側(cè)部署中的進(jìn)一步優(yōu)化,為企業(yè)的智能化轉(zhuǎn)型提供強(qiáng)有力的支持。

本文來源于「機(jī)器之心」

信息填寫

*手機(jī)號碼:

請選協(xié)議