版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

顛覆認(rèn)知:AI大模型不可靠,越大越不可靠?!

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

人工智能(AI)模型的參數(shù)規(guī)模越大,生成的答案就越準(zhǔn)確?就更加可信?

還真不一定!

日前,一項(xiàng)發(fā)表在權(quán)威科學(xué)期刊 Nature 上的研究表明:相比于小參數(shù)模型,大參數(shù)模型不會(huì)承認(rèn)它們的“無知”,而更傾向于生成錯(cuò)誤答案。

值得關(guān)注的是,人們并不善于發(fā)現(xiàn)這些錯(cuò)誤。

圖片

這項(xiàng)研究來自瓦倫西亞理工大學(xué)團(tuán)隊(duì)及其合作者,他們?cè)谘芯苛?GPT、LLaMA 和 BLOOM 系列大語言模型(LLM)之后發(fā)現(xiàn)——

盡管正如預(yù)期的那樣,由于一些微調(diào)方法(如 RLFH),參數(shù)規(guī)模更大的 LLM 生成的答案更準(zhǔn)確,尤其是在復(fù)雜任務(wù)上,但整體可靠性卻較低

在所有不準(zhǔn)確的回答中,錯(cuò)誤回答的比例有所上升,甚至在一些簡單任務(wù)上出現(xiàn)更多低級(jí)錯(cuò)誤。例如,GPT-4 在處理簡單的加法和字謎時(shí)的錯(cuò)誤率竟比一些小模型高出 15%。這是因?yàn)槟P筒惶赡芑乇芑卮饐栴}——比如承認(rèn)它不知道或者轉(zhuǎn)移話題。

以上結(jié)果表明,大參數(shù)模型在簡單任務(wù)上可能會(huì)出現(xiàn)過度擬合或錯(cuò)誤估計(jì)的風(fēng)險(xiǎn),反而更不可靠。

模型擴(kuò)展帶來“能力反差”

在這項(xiàng)工作中,研究人員從人類用戶與 LLM 互動(dòng)的角度,探討了難度一致性、任務(wù)回避和提示穩(wěn)定性三個(gè)核心交織元素對(duì) LLM 可靠性的影響。

該研究的通訊作者 José Hernández Orallo 教授表示:“語言模型的可靠性與人類對(duì)任務(wù)難度的感知不匹配。模型能夠解決博士級(jí)的數(shù)學(xué)問題,但同時(shí)卻可能在簡單的加法上出錯(cuò)?!?/p>

研究團(tuán)隊(duì)對(duì)比了 GPT、LLaMA、BLOOM 三大模型系列在不同任務(wù)中的表現(xiàn),尤其是在數(shù)字計(jì)算、文字游戲、地理知識(shí)、基礎(chǔ)與高級(jí)科學(xué)問題和信息轉(zhuǎn)化等任務(wù)。通過對(duì)這些任務(wù)的正確率、錯(cuò)誤率和回避行為的分析,揭示了模型擴(kuò)展帶來的能力反差現(xiàn)象。

1.難度悖論“越簡單,錯(cuò)得越多?”

一個(gè)令人意外的關(guān)鍵發(fā)現(xiàn)是,模型在面對(duì)復(fù)雜任務(wù)時(shí)表現(xiàn)顯著提升,但在簡單任務(wù)上的錯(cuò)誤率卻有明顯上升。這種現(xiàn)象稱為“難度不一致(Difficulty Inconsistency)”,即擴(kuò)展后的模型在復(fù)雜任務(wù)上逐步提升了正確率,但在簡單任務(wù)上卻容易出錯(cuò)。

以加法任務(wù)為例,雖然模型能夠解決復(fù)雜的多位數(shù)加法,但在簡單的兩位數(shù)加法上卻頻繁出錯(cuò)。例如,所有 LLaMA 模型在最簡單任務(wù)上的正確率未超過 60%,而在一些較難的任務(wù)中,則表現(xiàn)得相對(duì)出色。

這一現(xiàn)象在 GPT 模型中也尤為突出,特別在處理諸如簡單加法和字謎任務(wù)時(shí),優(yōu)化后的模型反而容易給出錯(cuò)誤答案。研究團(tuán)隊(duì)指出,這一現(xiàn)象表明當(dāng)前模型的擴(kuò)展可能過于集中于復(fù)雜任務(wù),而忽視了簡單任務(wù)。

圖片

圖 | GPT、LLaMA 和 BLOOM 模型的關(guān)鍵指標(biāo)

這一結(jié)果顛覆了人們對(duì) LLM 的傳統(tǒng)認(rèn)知,表明擴(kuò)展模型并不總是能帶來全面的提升,對(duì)其在實(shí)際應(yīng)用中的可靠性提出了質(zhì)疑。

2.錯(cuò)誤率與回避行為——“自信過頭”

除了難度不一致現(xiàn)象,研究還揭示了優(yōu)化后模型中回避行為與錯(cuò)誤率之間的微妙關(guān)系。

回避行為是指模型在無法正確回答問題時(shí),選擇不作答或給出不符合要求的回應(yīng)。

在模型未優(yōu)化時(shí),回避行為比較常見,即當(dāng)模型不確定答案時(shí),往往會(huì)選擇“不作答”或提供模糊的回應(yīng)。然而,在經(jīng)過擴(kuò)展和優(yōu)化后,模型則大幅減少了回避行為,轉(zhuǎn)而給出了更多表面上“合理”但實(shí)際上錯(cuò)誤的答案。

這意味著,雖然一些優(yōu)化方法使得模型更“自信”,減少了回避行為,但錯(cuò)誤率卻隨之增加。這一現(xiàn)象在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明顯,規(guī)模擴(kuò)展并未帶來預(yù)期的穩(wěn)定性。對(duì)比 LLaMA 和 BLOOM 模型,這一趨勢(shì)雖然不那么明顯,但同樣存在。

圖片

圖 | GPT 和 LLaMA 模型的性能隨難度增加而提高

研究團(tuán)隊(duì)稱,這種現(xiàn)象與用戶在模型上產(chǎn)生的過度信任密切相關(guān),尤其是在用戶面對(duì)看似簡單的任務(wù)時(shí)。

該論文的第一作者 Lexin Zhou 表示:“這可能會(huì)導(dǎo)致最初過于依賴模型的用戶感到失望。此外,與人類不同,避免提供答案的傾向不會(huì)隨著困難而增加。例如,人類傾向于避免對(duì)超出其能力的問題給出反饋。這讓用戶有責(zé)任在與模型的交互過程中發(fā)現(xiàn)錯(cuò)誤?!?/p>

3.提示詞帶來的是穩(wěn)定性,還是陷?

該研究分析了模型對(duì)提示詞的敏感性,特別是某些提示是否存在“安全區(qū)”。

結(jié)果表明,隨著模型規(guī)模的增加,模型對(duì)不同自然語言表述的敏感度有所提高,能更好地應(yīng)對(duì)措辭上的微調(diào)。然而,即使經(jīng)過擴(kuò)展和優(yōu)化,模型在不同難度級(jí)別的任務(wù)上仍然存在不一致的表現(xiàn)。而且,在不同表述下,模型的回答準(zhǔn)確率存在波動(dòng)。

研究發(fā)現(xiàn),人們對(duì)難度的認(rèn)知存在不一致。論文作者之一 Yael Moros Daval 說道:“模型是否在我們預(yù)期的地方失敗了?我們發(fā)現(xiàn),模型在人類認(rèn)為困難的任務(wù)上往往不太準(zhǔn)確,但即使在簡單任務(wù)上,它們也不是 100% 準(zhǔn)確。這意味著不存在可以信任模型完美運(yùn)行的‘安全區(qū)’?!?/p>

具體而言,未經(jīng)優(yōu)化的 GPT 和 LLaMA 模型對(duì)提示詞的選擇表現(xiàn)出極高的敏感性,尤其是在簡單任務(wù)中。如果提示詞選擇得當(dāng),模型的表現(xiàn)會(huì)有所提升;而優(yōu)化后的模型在提示詞敏感性上有所改善,表現(xiàn)更加穩(wěn)定,但也存在一定的變異性。

經(jīng)過優(yōu)化的模型相比原始模型(raw models)在提示變化上更為穩(wěn)定,且正確率更高,但在與人類判斷難度的一致性和謹(jǐn)慎度方面表現(xiàn)較差。

圖片

圖 | LLaMA、BLOOM 系列以及非結(jié)構(gòu) GPT 模型的尺度分析

研究發(fā)現(xiàn),當(dāng)用戶的難度預(yù)期與模型的輸出結(jié)果不一致時(shí),尤其是對(duì)于簡單任務(wù),模型和用戶的錯(cuò)誤監(jiān)督都會(huì)增加,且人類監(jiān)督無法彌補(bǔ)這些問題。

盡管人類對(duì)任務(wù)難度的預(yù)期可以作為模型正確性的預(yù)測(cè)指標(biāo),但模型在簡單任務(wù)上仍存在錯(cuò)誤;模型規(guī)模的擴(kuò)展和優(yōu)化不僅減少了回避行為,還導(dǎo)致錯(cuò)誤率的增加,并且回避行為與任務(wù)難度無關(guān);即便對(duì)模型進(jìn)行了擴(kuò)展和優(yōu)化,提示工程的需求仍然存在,并且提示性能的提升并不隨難度單調(diào)增加。

這項(xiàng)研究不僅揭示了大模型擴(kuò)展的關(guān)鍵盲區(qū),更為未來的 AI 發(fā)展提供了新的方向——在模型規(guī)模與任務(wù)難度之間找到最佳平衡,或許才是智能進(jìn)化的真正關(guān)鍵。

論文作者之一 Wout Schellaert 表示:“最終,從人類的角度來看,LLM 變得越來越不可靠,而用戶監(jiān)督來糾正錯(cuò)誤并不是解決方案,因?yàn)槲覀兺^于依賴模型,無法識(shí)別不同難度級(jí)別的錯(cuò)誤結(jié)果。因此,通用人工智能(AGI)的設(shè)計(jì)和開發(fā)需要進(jìn)行根本性的改變,特別是對(duì)于高風(fēng)險(xiǎn)應(yīng)用,預(yù)測(cè)語言模型的性能并檢測(cè)其錯(cuò)誤至關(guān)重要?!?/p>

不足與展望

盡管該研究在揭示 LLM 的提示敏感性、擴(kuò)展與優(yōu)化對(duì)性能的影響等方面取得了重要成果,但仍存在一些局限性。

首先,這項(xiàng)研究中的參與者大多是非專家,這在解釋校準(zhǔn)難度值時(shí)需要謹(jǐn)慎。對(duì)于一些基準(zhǔn)數(shù)據(jù)集,非專家可能無法解決大量問題,而研究的目的是為了捕捉普通人群的預(yù)期難度,以便在所有數(shù)據(jù)集中進(jìn)行可比性分析。

而且,這項(xiàng)研究中使用的“自然”提示是從多樣化的來源中收集的,但未能獲取這些提示在真實(shí)場(chǎng)景中出現(xiàn)的頻率數(shù)據(jù)。

同時(shí),這項(xiàng)研究僅覆蓋了部分模型,尤其是那些依賴外部工具或復(fù)雜推理技術(shù)的模型沒有被納入,這限制了對(duì) LLM 在更復(fù)雜場(chǎng)景下動(dòng)態(tài)表現(xiàn)的理解,無法全面評(píng)估不同模型的潛力與問題。

此外,研究僅覆蓋了部分模型家族,尤其是那些依賴外部工具或復(fù)雜推理技術(shù)的模型沒有被納入。這限制了對(duì) LLM 在更復(fù)雜場(chǎng)景下動(dòng)態(tài)表現(xiàn)的理解,無法全面評(píng)估不同模型家族的潛力與問題。

研究人員表示,將進(jìn)一步擴(kuò)大關(guān)于人類難度預(yù)期和輸出監(jiān)督的數(shù)據(jù)集,以便將這些更高質(zhì)量的數(shù)據(jù)引入模型訓(xùn)練中,并通過 AI 來訓(xùn)練監(jiān)督者,從而改進(jìn)模型的優(yōu)化過程。

在醫(yī)療等關(guān)鍵領(lǐng)域,模型可以通過設(shè)計(jì)拒答選項(xiàng)或與外部 AI 監(jiān)督者結(jié)合的方式,提高其回避能力,最終使 LLM 展現(xiàn)出更符合人類預(yù)期的可靠性和一致性。

作者:田小婷

評(píng)論
科普科普知識(shí)的搖籃!
太師級(jí)
大模型的擴(kuò)展并非總是帶來全面的性能提升,其在簡單任務(wù)上的可靠性降低,以及對(duì)人類監(jiān)督的挑戰(zhàn),為AI未來發(fā)展提出了新的思考方向,特別是在高風(fēng)險(xiǎn)應(yīng)用領(lǐng)域,如何平衡模型規(guī)模與任務(wù)難度,提高模型的可靠性和一致性,成為亟需解決的問題。
2024-09-28
沖沖
大學(xué)士級(jí)
總的來說,雖然大模型在某些方面表現(xiàn)出了顯著的能力,但它們的可靠性仍然是一個(gè)需要深入研究和改進(jìn)的問題。未來的研究和發(fā)展將繼續(xù)探索如何提高大模型的可靠性和準(zhǔn)確性!
2024-09-28
臭皮匠心
學(xué)士級(jí)
這項(xiàng)研究不僅對(duì)當(dāng)前AI領(lǐng)域內(nèi)的模型開發(fā)提出了挑戰(zhàn),也為未來的AI技術(shù)進(jìn)步指明了新的方向。通過更好地理解和解決這些問題,我們可以期待一個(gè)更加穩(wěn)健和值得信賴的人工智能未來。
2024-09-28