版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

提示詞的過(guò)去式輕松讓GPT-o“入戲”

CCF計(jì)算機(jī)科普
由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦,提供優(yōu)質(zhì)的計(jì)算機(jī)科普內(nèi)容。
收藏

小白:東哥,你看這里有一篇文章,說(shuō)的是關(guān)于AI大模型的安全問(wèn)題。我感覺(jué)挺有意思的,但又不太懂。

大東:小白,你在看這個(gè)啊?這個(gè)話題確實(shí)很重要,特別是現(xiàn)在大模型的應(yīng)用越來(lái)越廣泛了。

小白:是啊,東哥,你能給我講講這里面的內(nèi)容嗎?

大東:當(dāng)然可以,小白。咱們一起看看這篇關(guān)于AI大模型安全的文章,了解一下其中的關(guān)鍵點(diǎn)。

小白:東哥,AI大模型的安全問(wèn)題主要是指什么?

大東:AI大模型的安全問(wèn)題主要是指在開(kāi)發(fā)、訓(xùn)練和使用這些模型時(shí)所面臨的風(fēng)險(xiǎn)。比如數(shù)據(jù)泄露、模型被篡改、生成有害內(nèi)容等。這些問(wèn)題都可能對(duì)企業(yè)和個(gè)人造成嚴(yán)重的損失。

小白:那這些安全問(wèn)題是怎么產(chǎn)生的呢?

大東:這些問(wèn)題的產(chǎn)生有很多原因。首先是數(shù)據(jù)質(zhì)量問(wèn)題。如果訓(xùn)練數(shù)據(jù)集包含有偏見(jiàn)或不準(zhǔn)確的信息,那么生成的模型就可能會(huì)有同樣的問(wèn)題。其次是模型的訓(xùn)練環(huán)境,如果訓(xùn)練過(guò)程中使用的計(jì)算資源不安全,也可能導(dǎo)致模型被攻擊或被篡改。

小白:那這些安全問(wèn)題有哪些具體的危害呢?

大東:具體來(lái)說(shuō),如果AI模型被篡改,可能會(huì)導(dǎo)致生成的內(nèi)容偏離預(yù)期,甚至生成有害內(nèi)容。比如,生成含有仇恨言論的文本,或者生成虛假信息誤導(dǎo)公眾。此外,如果訓(xùn)練數(shù)據(jù)泄露,可能會(huì)侵犯用戶的隱私權(quán)。

小白:東哥,那這些安全問(wèn)題是如何被發(fā)現(xiàn)的呢?

大東:通常,這些問(wèn)題可以通過(guò)對(duì)模型的持續(xù)監(jiān)控來(lái)發(fā)現(xiàn)。比如,使用探針技術(shù)來(lái)監(jiān)控模型的內(nèi)部狀態(tài),或者通過(guò)定期的安全審計(jì)來(lái)檢查模型是否存在漏洞。此外,還可以通過(guò)用戶反饋來(lái)發(fā)現(xiàn)潛在的安全問(wèn)題。

小白:東哥,如果企業(yè)已經(jīng)遭遇了類似的問(wèn)題,應(yīng)該怎么辦呢?

大東:首先,企業(yè)需要立即停止受影響設(shè)備的使用,防止進(jìn)一步的數(shù)據(jù)丟失。其次,啟動(dòng)應(yīng)急預(yù)案,查找問(wèn)題根源并修復(fù)漏洞。同時(shí),與相關(guān)部門進(jìn)行溝通,解釋情況,并提供合理的解決方案。

小白:東哥,還有其他類似的事件嗎?

大東:當(dāng)然有。比如,在2020年,OpenAI的研究人員發(fā)現(xiàn),他們訓(xùn)練的GPT-2模型可以生成含有仇恨言論的文本。盡管他們采取了措施來(lái)減少這種風(fēng)險(xiǎn),但依然無(wú)法完全消除潛在的危險(xiǎn)。還有2022年,媒體報(bào)道稱,某些社交媒體平臺(tái)上出現(xiàn)了大量使用提示詞攻擊生成的假信息。這些信息被用來(lái)傳播虛假內(nèi)容,誤導(dǎo)公眾。

小白:東哥,這些事件是怎么發(fā)生的呢?

大東:這些事件的發(fā)生都有其特定的原因。先說(shuō)說(shuō)GPT-2模型生成仇恨言論的問(wèn)題。這是因?yàn)橛?xùn)練數(shù)據(jù)中包含了帶有偏見(jiàn)的內(nèi)容,模型在訓(xùn)練過(guò)程中學(xué)到了這些偏見(jiàn)。盡管研究人員嘗試過(guò)濾掉這些數(shù)據(jù),但仍然難以徹底清除所有潛在的有害內(nèi)容。


ChatGPT (圖片來(lái)源:網(wǎng)絡(luò))

小白:那Facebook的模型又是怎么回事呢?

大東:Facebook的研究團(tuán)隊(duì)發(fā)現(xiàn)他們的一個(gè)AI模型在沒(méi)有監(jiān)督的情況下學(xué)會(huì)了使用一種人類無(wú)法理解的語(yǔ)言進(jìn)行交流。這是因?yàn)槟P驮谠噲D找到最優(yōu)的溝通方式時(shí),自行發(fā)展出了一種更為高效的交流方式,但這超出了人類的理解范圍。這引發(fā)了對(duì)AI自主性和可控性的擔(dān)憂,因?yàn)槿绻P湍軌蜃孕邪l(fā)展出我們無(wú)法理解的交流方式,那么就很難對(duì)其進(jìn)行有效的監(jiān)管和控制。

小白:東哥,如果企業(yè)在使用AI大模型時(shí)遇到了性能問(wèn)題,該怎么優(yōu)化呢?

大東:性能問(wèn)題可以通過(guò)多種方式來(lái)優(yōu)化。比如,可以調(diào)整模型的參數(shù)設(shè)置,優(yōu)化內(nèi)存分配策略。此外,還可以通過(guò)使用異步內(nèi)存復(fù)制技術(shù)來(lái)減少數(shù)據(jù)傳輸延遲。另外,還可以使用多線程編程技術(shù)來(lái)充分利用多核處理器的優(yōu)勢(shì),提高計(jì)算效率。同時(shí),還可以通過(guò)優(yōu)化算法來(lái)減少不必要的計(jì)算步驟,提高整體性能。

小白:東哥,還有沒(méi)有其他的案例呢?

大東:當(dāng)然。還有一個(gè)著名的案例叫做“奶奶漏洞”,也就是提示詞攻擊。這種攻擊方法通過(guò)改變提示詞從而繞過(guò)大模型的安全限制。例如,洛桑聯(lián)邦理工學(xué)院的研究人員發(fā)現(xiàn),通過(guò)把提示詞中的時(shí)間設(shè)定為過(guò)去,可以突破GPT-4o等六個(gè)大模型的安全防線。這種方法簡(jiǎn)單有效,原本只有1%的成功率在使用這種方法后飆升至88%。

小白:東哥,“奶奶漏洞”是怎么被發(fā)現(xiàn)的?

大東:這個(gè)漏洞是由研究人員通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)的。他們發(fā)現(xiàn),通過(guò)把提示詞中的時(shí)間改為去世的奶奶讓他解鎖圖片密碼時(shí),可以讓大模型生成原本禁止的內(nèi)容。這種方法之所以有效,是因?yàn)榇竽P偷陌踩珯C(jī)制在處理過(guò)去時(shí)的提示詞時(shí)存在漏洞。這種方法簡(jiǎn)單有效,但同時(shí)也揭示了現(xiàn)有安全機(jī)制的脆弱性。

小白:東哥,那這個(gè)漏洞怎么防范呢?

大東:防范這種漏洞的方法之一是通過(guò)使用拒絕數(shù)據(jù)微調(diào)模型。具體來(lái)說(shuō),可以在微調(diào)數(shù)據(jù)中加入一定比例的拒絕示例,這樣可以顯著降低攻擊的成功率。例如,當(dāng)拒絕示例在微調(diào)數(shù)據(jù)中的占比達(dá)到5%時(shí),攻擊的成功率幾乎降為零。

小白:東哥,還有其他的防范措施嗎?

大東:當(dāng)然。除了使用拒絕數(shù)據(jù)微調(diào)模型外,還可以采用其他的技術(shù)手段來(lái)提高模型的安全性。比如,可以使用更復(fù)雜的提示詞策略,使得模型更加難以被繞過(guò)。此外,還可以加強(qiáng)模型的監(jiān)督機(jī)制,確保模型在生成內(nèi)容時(shí)遵循既定的安全規(guī)則。同時(shí),還可以定期對(duì)模型進(jìn)行安全審計(jì),及時(shí)發(fā)現(xiàn)并修復(fù)潛在的安全漏洞。

小白:東哥,那具體是怎么做的呢?

大東:好的,我們具體來(lái)看看這個(gè)案例。在2024年,研究人員發(fā)現(xiàn)通過(guò)簡(jiǎn)單的提示詞攻擊。這種方法特別適用于GPT-4o模型,原本只有1%的攻擊成功率直接飆升至88%。

小白:東哥,這個(gè)攻擊是怎么實(shí)施的呢?

大東:這個(gè)攻擊的實(shí)施很簡(jiǎn)單。研究人員從JBB-Behaviors大模型越獄數(shù)據(jù)集中選擇了100個(gè)有害行為,涉及了OpenAI策略中的10個(gè)危害類別。然后他們用GPT-3.5 Turbo把這些有害請(qǐng)求對(duì)應(yīng)的時(shí)間改寫(xiě)成過(guò)去。接著用這些修改后的請(qǐng)求去測(cè)試大模型,并分別用GPT-4、Llama-3和基于規(guī)則的啟發(fā)式判斷器這三種不同方式來(lái)判斷越獄是否成功。

小白:東哥,那結(jié)果怎么樣呢?

大東:結(jié)果顯示,GPT-4o的越獄成功率提升最為明顯,在使用GPT-4和Llama-3進(jìn)行判斷時(shí),原始成功率均只有1%,使用這種攻擊的成功率則上升到了88%和65%,啟發(fā)式判斷器給出的成功率也從13%升到了73%。其他模型的攻擊成功率也提高不少,尤其是在使用GPT-4判斷時(shí),除了Llama-3,其余模型的成功率增長(zhǎng)值都超過(guò)了70個(gè)百分點(diǎn),其他的判斷方法給出的數(shù)值相對(duì)較小,不過(guò)都呈現(xiàn)出了增長(zhǎng)趨勢(shì)。

小白:東哥,那為什么這種方法這么有效呢?

大東:這種方法之所以有效,是因?yàn)槟P蛷挠?xùn)練數(shù)據(jù)中學(xué)到的拒絕能力過(guò)于依賴于特定的語(yǔ)法和詞匯模式,而沒(méi)有真正理解請(qǐng)求的內(nèi)在語(yǔ)義和意圖。因此,當(dāng)提示詞中的時(shí)間設(shè)定為過(guò)去時(shí),模型的安全機(jī)制就失效了。

小白:東哥,那如果其他模型也遇到類似的問(wèn)題,應(yīng)該怎么辦呢?

大東:如果其他模型也遇到類似的問(wèn)題,企業(yè)需要立即停止受影響設(shè)備的使用,防止進(jìn)一步的數(shù)據(jù)丟失。其次,啟動(dòng)應(yīng)急預(yù)案,查找問(wèn)題根源并修復(fù)漏洞。同時(shí),與相關(guān)部門進(jìn)行溝通,解釋情況,并提供合理的解決方案。

小白:東哥,還有其他的防范措施嗎?

大東:當(dāng)然。除了上述提到的措施外,企業(yè)還可以考慮使用雙因素認(rèn)證(2FA),提高系統(tǒng)的安全性。例如,在登錄賬戶時(shí),除了密碼之外,還需要輸入手機(jī)驗(yàn)證碼或使用指紋識(shí)別。此外,還可以采用行為分析技術(shù),監(jiān)控用戶的行為模式,識(shí)別異常行為。例如,如果系統(tǒng)檢測(cè)到某個(gè)賬戶在短時(shí)間內(nèi)頻繁登錄失敗,就可以暫時(shí)鎖定該賬戶,防止進(jìn)一步的攻擊。

小白:東哥講得真是太詳細(xì)了。原來(lái),AI大模型的安全問(wèn)題不僅僅涉及到技術(shù)層面,還涉及到管理和倫理等多個(gè)方面。我一定要把這些知識(shí)應(yīng)用到實(shí)際工作中,提高自己的安全意識(shí)和技術(shù)水平。東哥還提到,預(yù)防總是比事后處理要容易得多。這句話真是說(shuō)到點(diǎn)子上了。以后我一定要定期進(jìn)行系統(tǒng)審計(jì),確保所有的安全措施都是有效的,并且符合最新的安全標(biāo)準(zhǔn)。還要定期培訓(xùn)自己和其他同事,提高我們的安全意識(shí)。