超碰av在线短片|中文字幕第一页日本|亚洲国产精品Va|亚洲一区二区中文字幕在线观看|日本青青草一级片|亚洲福利 AV|中文字幕日版第一页|免费视频一区|五月丁香在线视.|黄色在线观看aa

<label id="g9jyj"></label>

<span id="g9jyj"></span>

<label id="g9jyj"></label>

<label id="g9jyj"></label>

<pre id="sgcq4"><th id="sgcq4"></th></pre>

<dl id="sgcq4"></dl>

<abbr id="sgcq4"><pre id="sgcq4"></pre></abbr>

美團LongCat發(fā)布VitaBench評測基準，真實生活場景下大模型智能體成功率僅30%

鞭牛士

發(fā)布時間：2025-10-20 19:43 | 鯤鵬計劃獲獎作者

10月20日，美團LongCat團隊正式發(fā)布大模型智能體評測基準“VitaBench”。

該基準高度貼近真實生活場景，以外賣點餐、餐廳就餐、旅游出行三大高頻場景為載體，構建了包含66個工具的交互式評測環(huán)境，還進行了跨場景綜合任務設計，如旅游規(guī)劃任務需智能體完成從購票到訂餐廳的全流程。

美團LongCat發(fā)布VitaBench評測基準，真實生活場景下大模型智能體成功率僅30%-有駕

團隊從深度推理、工具使用與用戶交互三大維度對智能體任務量化拆解，結果顯示，即便當前領先的推理模型，在復雜跨場景任務主榜中的成功率也僅30%，凸顯出現(xiàn)有智能體與真實生活場景應用需求的明顯差距。

目前VitaBench已全面開源，將為智能體在真實場景的研發(fā)應用提供重要基礎設施。（轉自AI普瑞斯）

更多AI資訊請點擊：http://www.aipress.com.cn/

0

全部評論（0）

暫無評論

熱門推薦

淘寶全新發(fā)布6款AI導購應用，首個AI全面落地的天貓“雙11”來了！

蘇家屯站多方聯(lián)動整治風險隱患筑牢安全生產防線

徹底退出！英偉達痛失中國95%市場，黃仁勛坦言“100%出局”

SevenTech柒科技

存儲芯片板塊持續(xù)拉升，三孚股份4連板

《一笑隨歌》8位演員演過《寧安如夢》，個個反差大，你認出幾個

娛君墜星河

從“跟跑”到“領跑” 國產醫(yī)療裝備“利器”層出

廣佛西環(huán)城際鐵路3.1萬噸斜拉橋完成“空中轉體”

從高職生到清華講師：90后女孩用“手上功夫”打破學歷天花板

京東迎接十五全運高鐵冠名列車盛大啟程以科技助力美好生活

中央編辦三局：全面建立鄉(xiāng)鎮(zhèn)（街道）履職事項清單切實為基層減負

加載中...

<dl id="wom4o"><abbr id="wom4o"></abbr></dl>