德國維基媒體協(xié)會于10月1日宣布推出一項新數(shù)據(jù)庫,將使維基百科豐富的知識庫更易為AI模型獲取與利用。這項名為“Wikidata Embedding Project”的新系統(tǒng),通過向維基百科及其附屬平臺(包含近1.2億條目)引入基于向量的語義搜索技術,來幫助計算機理解詞語的含義和關系。
項目同時支持“模型上下文協(xié)議”(Model Context Protocol,MCP),這是一項幫助AI系統(tǒng)與數(shù)據(jù)源進行通信的標準,從而讓大型語言模型(LLM)能以自然語言查詢維基數(shù)據(jù)。
此次項目由德國維基媒體與神經(jīng)搜索公司Jina.AI及IBM旗下實時訓練數(shù)據(jù)公司DataStax共同協(xié)作完成。多年以來,Wikidata已為維基旗下平臺提供可供機器讀取的數(shù)據(jù),但此前的工具只支持關鍵詞搜索或SPARQL查詢(一種專業(yè)語義查詢語言)。新系統(tǒng)將更適合用于“檢索增強生成”(RAG)系統(tǒng),使AI模型能夠接入外部權威知識,為開發(fā)者提供基于維基百科編輯審核過的信息內(nèi)容,讓模型具備更可靠的數(shù)據(jù)基礎。
此外,新數(shù)據(jù)庫強調(diào)語義上下文。例如,用戶檢索“科學家”一詞,能獲得知名核科學家名單、貝爾實驗室科學家列表,也可查詢“科學家”在多種語言中的翻譯、維基官方授權的科學家工作圖片,以及一系列相關概念如“研究人員”“學者”等的擴展信息。
該數(shù)據(jù)庫已在Toolforge平臺公開上線,Wikidata還將于10月9日為有興趣的開發(fā)者舉辦線上研討會。
在AI開發(fā)者普遍尋求高質(zhì)量訓練數(shù)據(jù)源以精調(diào)模型的背景下,本項目應運而生。隨著訓練系統(tǒng)日益復雜、趨向組成型環(huán)境而非單一數(shù)據(jù)集,對高度準確可靠數(shù)據(jù)的需求也更為迫切。雖然部分人士對維基百科持保留態(tài)度,但其數(shù)據(jù)已遠比龐雜的網(wǎng)絡爬蟲數(shù)據(jù)集(如Common Crawl)更具事實基礎。
AI實驗室在追求高質(zhì)量數(shù)據(jù)時,有時需付出高額代價。例如,今年8月,Anthropic公司為解決AI訓練使用作家作品的相關法律糾紛,選擇支付15億美元達成和解。
Wikidata AI項目負責人Philippe Saadé在新聞通報中強調(diào),該項目與主要AI實驗室或大型科技公司無直接關聯(lián)。“Embedding Project的發(fā)布證明,強大的AI不必被少數(shù)公司掌控,”他說,“它可以開放協(xié)作,并為所有人服務?!?/p>
全部評論 (0)