盡管人工智能的興起帶來(lái)了變革性和顛覆性的力量,但生成性人工智能的致命弱點(diǎn)仍然是它的虛構(gòu)傾向。
大型語(yǔ)言模型“產(chǎn)生幻覺(jué)”的趨勢(shì)伴隨著各種陷阱,播下了錯(cuò)誤信息的種子。自然語(yǔ)言處理領(lǐng)域可能是危險(xiǎn)的,尤其是當(dāng)人們無(wú)法區(qū)分什么是人類(lèi)的,什么是人工智能生成的時(shí)候。
為了應(yīng)對(duì)這種情況,自稱是世界上最大的開(kāi)源人工智能社區(qū)的Huggingface引入了幻覺(jué)排行榜,這是一個(gè)新的排名,專門(mén)評(píng)估開(kāi)源LLM及其生成幻覺(jué)內(nèi)容的趨勢(shì),方法是通過(guò)一組專為上下文學(xué)習(xí)而設(shè)的不同基準(zhǔn)來(lái)運(yùn)行它們。
排行榜開(kāi)發(fā)人員解釋道:“這一舉措旨在幫助研究人員和工程師確定最可靠的模型,并有可能推動(dòng)LLM的發(fā)展,使其更準(zhǔn)確、更忠實(shí)地生成語(yǔ)言?!?。
LLMs中的幻覺(jué)分為兩類(lèi):真實(shí)性和忠實(shí)性。事實(shí)幻覺(jué)是指內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)相矛盾。這種差異的一個(gè)例子可能是一個(gè)模型錯(cuò)誤地宣稱比特幣有1億個(gè)代幣,而不是2300萬(wàn)個(gè)。另一方面,當(dāng)生成的內(nèi)容偏離用戶的明確指示或既定上下文時(shí),就會(huì)出現(xiàn)忠實(shí)的幻覺(jué),導(dǎo)致新聞?wù)驓v史分析等關(guān)鍵領(lǐng)域的潛在不準(zhǔn)確。在這方面,模型會(huì)生成虛假信息,因?yàn)楦鶕?jù)提示,這似乎是最符合邏輯的路徑。
排行榜使用EleutherAI的語(yǔ)言模型評(píng)估工具對(duì)各種任務(wù)進(jìn)行全面的零樣本和少熱點(diǎn)語(yǔ)言模型評(píng)估。這些任務(wù)旨在測(cè)試模型的性能。一般來(lái)說(shuō),每個(gè)測(cè)試都會(huì)根據(jù)LLM的性能給出一個(gè)分?jǐn)?shù),然后對(duì)這些結(jié)果進(jìn)行平均,以便每個(gè)模型根據(jù)其在所有測(cè)試中的總體性能進(jìn)行競(jìng)爭(zhēng)。
那么,哪種LLM架構(gòu)是最不瘋狂的呢?
根據(jù)幻覺(jué)排行榜的初步結(jié)果,表現(xiàn)出較少幻覺(jué)的模型包括Meow(基于太陽(yáng)能)、Stability AI的Stable Beluga和Meta的LlaMA-2。然而,一些來(lái)自共同基礎(chǔ)的模型(如基于Mistral LLM的模型)往往在特定測(cè)試中優(yōu)于競(jìng)爭(zhēng)對(duì)手——這必須根據(jù)每個(gè)用戶可能想到的口味的性質(zhì)來(lái)考慮。
在幻覺(jué)排行榜上,一個(gè)模型的平均得分越高,表明該模型產(chǎn)生幻覺(jué)的傾向越低。這意味著該模型在生成與事實(shí)信息一致、符合用戶輸入或給定上下文的內(nèi)容方面更準(zhǔn)確、更可靠。
然而,需要注意的是,在某些任務(wù)中表現(xiàn)出色的模型在其他任務(wù)中可能表現(xiàn)不佳,因此排名是基于所有基準(zhǔn)之間的平均值,這些基準(zhǔn)測(cè)試了總結(jié)、事實(shí)核查、閱讀理解和自我一致性等不同領(lǐng)域。
幻覺(jué)排行榜背后的建筑師Pasquale Minervini博士沒(méi)有立即回應(yīng)Decrypt的置評(píng)請(qǐng)求。
值得注意的是,盡管幻覺(jué)排行榜提供了對(duì)開(kāi)源模型的全面評(píng)估,但閉源模型尚未經(jīng)過(guò)如此嚴(yán)格的測(cè)試。然而,考慮到測(cè)試協(xié)議和商業(yè)模型的專有限制,幻覺(jué)排行榜得分似乎不太可能。
由Ryan Ozawa編輯。