鳳凰網(wǎng)科技訊 9月30日,據(jù)“火山引擎”微信公眾號消息,豆包大模型1.6-vision正式發(fā)布,這是豆包大模型家族首個具備工具調(diào)用能力的視覺深度思考模型,擁有更強的通用多模態(tài)理解和推理能力,并支持Responses API。
新模型將圖像融入其思維鏈中,實現(xiàn)對圖片的定位、剪裁、點選、畫線、縮放、旋轉(zhuǎn)等精細處理。 并通過模擬人類從“從全局掃描到局部聚焦”的視覺推理過程,在增強推理可解釋性的同時,可高效精準地完成圖像操作。
豆包大模型1.6-vision支持Responses API,可自主選擇調(diào)用工具,大幅度減少Agent開發(fā)過程中的代碼量,提升開發(fā)效率。
此外,對比上一版視覺理解模型Doubao-1.5-thinking-vision-pro,綜合成本降低約50%。
本文來自和訊財經(jīng),更多精彩資訊請下載“和訊財經(jīng)”APP
全部評論 (0)