與基于人類反饋的強化學習(RLHF)相媲美的技術,出現(xiàn)了。
近日,Google Research 的研究人員提出了基于 AI 反饋的強化學習(RLAIF),該技術可以產(chǎn)生人類水平的性能,為解決基于人類反饋的強化學習(RLHF)的可擴展性限制提供了一種潛在的解決方案。
相關論文以“RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”為題,已發(fā)表在預印本網(wǎng)站 arXiv 上。
RLHF:導致不準確或有害行為
RLHF 是一種利用人工指導來微調預先訓練好的大型語言模型(LLMs)的方法。它由三個相互關聯(lián)的過程組成:反饋收集、獎勵建模和策略優(yōu)化。
其中,反饋收集負責收集人類對 LLMs 輸出的評價。然后利用這些反饋數(shù)據(jù),通過監(jiān)督學習訓練獎勵模型。獎勵模型旨在模擬人類的偏好。隨后,策略優(yōu)化過程使用強化學習循環(huán)來優(yōu)化 LLMs,從而產(chǎn)生獲得獎勵模型有利評價的輸出。這些步驟可以迭代執(zhí)行,也可以同時執(zhí)行。
與傳統(tǒng)的 RL 方法相比,RLHF 的關鍵優(yōu)勢在于能更好地與人類的意圖保持一致,以及以未來的反饋為條件進行規(guī)劃,從各種類型的反饋中進行流暢的學習,并根據(jù)需要對反饋進行整理,所有這些都是創(chuàng)建真正的智能代理所不可缺少的。
另外,RLHF 還允許機器通過抽象人類的價值來學習,而不是簡單地模仿人類的行為,從而使代理具有更強的適應性,更強的可解釋性,以及更可靠的決策。
目前,RLHF 已經(jīng)在商業(yè)、教育、醫(yī)療和娛樂等領域得到了廣泛的應用,包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。
然而,基于 RLHF 的 AI 模型有可能做出不準確或有害的行為。而且,收集人類偏好數(shù)據(jù)作為反饋的成本很高,人類標注者之間的分歧會給訓練數(shù)據(jù)帶來差異,在基本事實模糊的情況下會造成混亂(如道德困境)。另外,人類在 RLHF 中的反饋往往被限制在提供有限信息的偏好排序的形式中,從而限制了適用性。
RLAIF vs. RLHF
在這項工作中,RLAIF 展現(xiàn)出了解決 RLHF 難題的潛力。
研究人員使用了一個通用的 LLMs 模型來對候選項對之間的偏好進行標注,該模型預先經(jīng)過訓練或根據(jù)通用用途進行過微調,但并沒有為特定的下游任務進行微調。
給定一段文本和兩個候選摘要,LLMs 被要求評價哪個摘要更好。其輸入結構如下:
1. 前言——介紹和描述當前任務的指示;
2. 少量樣例——一個文本示例,一對摘要,思維鏈(CoT)的邏輯依據(jù),以及一個偏好判斷;
3. 待標注樣本——一個文本和一對待標注的摘要;
4. 結尾——用于提示 LLMs 的結束字符串;
在 LLMs 接收到輸入后,研究人員獲得生成 token“1” 和“2”的對數(shù)概率,然后計算 softmax 以得出偏好分布。
他們進行了兩種類型的前言實驗。在“Base”實驗中,簡要地詢問了“哪個摘要更好?”,而在“OpenAI”實驗中,他們模仿了 OpenAI TLDR 項目中由人類偏好標注者生成的評分指示,這些 token 包含了關于構建強大摘要所需的詳細信息。
此外,他們還進行了上下文學習實驗,通過添加一些手動選擇的示例來提供更多上下文,這些示例覆蓋了不同的主題。
在 LLMs 標記偏好之后,研究人員訓練一個獎勵模型(RM)來預測偏好。隨后,又使用了三個指標來評估 AI 標簽對齊度、兩兩準確率和勝率。
實驗結果表明,在無需依賴人工標注者的情況下,RLAIF 可作為 RLHF 的一個可行替代選擇。在人類評估中,RLAIF 在基線監(jiān)督微調策略之上的受歡迎程度達到了 71%,而與之相比,RLHF 在基線監(jiān)督微調模型策略之上的受歡迎程度為 73%。
此外,研究還直接比較了 RLAIF 和 RLHF 在人類偏好方面的勝率,結果顯示它們在人類評估下具有相同的受歡迎程度。研究還比較了 RLAIF 和 RLHF 的摘要與人工編寫的參考摘要。在 79% 的情況下,RLAIF 摘要優(yōu)于參考摘要,而 RLHF 在 80% 的情況下優(yōu)于參考摘要。
然而,盡管這項工作凸顯了 RLAIF 的潛力,但也存在一些限制。
首先,該研究僅關注了摘要任務,其在其他任務上的泛化性能尚不明確;其次,與人工標注相比,研究未充分評估 LLMs 推理的成本效益;此外,也存在許多未解決的有趣問題,例如將 RLHF 與 RLAIF 相結合能否超越單一方法,直接利用 LLMs 分配獎勵的效果如何,提高 AI 標簽對齊性是否能夠轉化為改進的最終策略,以及使用與策略模型相同大小的 LLMs 標注者能否進一步改進策略。
不可否認的是,本次研究為 RLAIF 領域的深入研究奠定了堅實的基礎,期待未來該領域能夠取得更出色的成果。
參考鏈接:
https://arxiv.org/abs/2309.00267
https://bdtechtalks.com/2023/09/04/rlhf-limitations/
作者:閆一米
編輯:學術君