超碰av在线短片|中文字幕第一页日本|亚洲国产精品Va|亚洲一区二区中文字幕在线观看|日本青青草一级片|亚洲 福利 AV|中文字幕日版第一页|免费视频一区|五月丁香在线视.|黄色在线观看aa

美團LongCat發(fā)布VitaBench評測基準,真實生活場景下大模型智能體成功率僅30%

10月20日,美團LongCat團隊正式發(fā)布大模型智能體評測基準“VitaBench”。

該基準高度貼近真實生活場景,以外賣點餐、餐廳就餐、旅游出行三大高頻場景為載體,構建了包含66個工具的交互式評測環(huán)境,還進行了跨場景綜合任務設計,如旅游規(guī)劃任務需智能體完成從購票到訂餐廳的全流程。

美團LongCat發(fā)布VitaBench評測基準,真實生活場景下大模型智能體成功率僅30%-有駕

團隊從深度推理、工具使用與用戶交互三大維度對智能體任務量化拆解,結果顯示,即便當前領先的推理模型,在復雜跨場景任務主榜中的成功率也僅30%,凸顯出現(xiàn)有智能體與真實生活場景應用需求的明顯差距。

目前VitaBench已全面開源,將為智能體在真實場景的研發(fā)應用提供重要基礎設施。(轉自AI普瑞斯)

更多AI資訊請點擊:http://www.aipress.com.cn/
0

全部評論 (0)

暫無評論