ChatGPT 等大型語言模型(LLM)的出現(xiàn),讓機器人具備了如同人類一般的語言表達能力。然而,機器人在與人類交談時,其面部表情卻依然顯得很不自然,甚至充滿了恐懼感。
這無疑會阻礙人與機器溝通的意愿,讓兩者的溝通變得十分困難。
因此,在未來人機共存的時代,設(shè)計一個不僅能做出各種面部表情,而且知道何時使用這些表情的機器人,至關(guān)重要。
如今,來自哥倫比亞大學的研究團隊及其合作者便邁出了重要一步——制造了一個披著硅片、能夠預(yù)測人類面部表情并同步執(zhí)行表情的機器人 Emo。它甚至可以在人類微笑前約 840 毫秒(約 0.9 秒)預(yù)測即將出現(xiàn)的微笑。
據(jù)介紹,它能與人進行眼神交流,并利用兩個人工智能(AI)模型在人微笑之前預(yù)測并“復(fù)制”人的微笑。研究團隊表示,這是機器人在準確預(yù)測人類面部表情、改善互動以及建立人類與機器人之間信任方面的一大進步。
相關(guān)研究論文以“Human-robot facial coexpression”為題,已于今天發(fā)表在科學期刊 Science Robotics 上。哥倫比亞大學機械工程系博士 Yuhang Hu 為該論文的第一作者和共同通訊作者,他的導(dǎo)師、哥倫比亞大學教授 Hod Lipson 為該論文的共同通訊作者。
圖|Yuhang Hu 與 Emo 面對面。(來源:Creative Machines Lab)
在一篇同期發(fā)表在 Science Robotics 的 FOCUS 文章中,格拉斯哥大學計算社會認知教授 Rachael Jack 評價道:
“人類社交互動本質(zhì)上是多模式的,涉及視覺和聽覺信號的復(fù)雜組合,雖然 Hu 及其同事的研究集中在單一模式——面部表情上,但他們的成果在為開發(fā)更復(fù)雜的多模態(tài)信號的社交同步技能方面做出了巨大的貢獻。”
在她看來,盡管這是一個復(fù)雜的跨學科工作,但“真正使社交機器人融入人類社交世界是可能的”。
Emo 微笑了,但也不僅僅是“微笑”
如果你走到一個長著人類腦袋的機器人面前,它先對你微笑,你會怎么做?你很可能會回以微笑,也許會覺得你們兩個在真誠地交流。
但是,機器人怎么知道如何做到這一點呢?或者更好的問題是,它怎么知道如何讓你回以微笑?
為此,Yuhang Hu 及其同事需要解決兩大難題:一是如何以機械方式設(shè)計一個表情豐富的機器人面部,這涉及復(fù)雜的硬件和執(zhí)行機制;二是知道該生成哪種表情,以使它們看起來自然、及時和真實。
據(jù)論文描述,Emo 配備了 26 個致動器,頭部覆蓋有柔軟的硅膠皮膚,并配有磁性連接系統(tǒng),從而便于定制和快速維護。為了實現(xiàn)更逼真的互動,研究團隊在 Emo 每只眼睛的瞳孔中都集成了高分辨率攝像頭,使其能夠進行眼神交流,這對非語言交流至關(guān)重要。
圖|Robot face 平臺
另外,他們還開發(fā)了兩個人工智能模型:其中一個通過分析目標面部的細微變化預(yù)測人類面部表情,另一個則利用相應(yīng)的面部表情生成運動指令。第一個模型是通過觀看網(wǎng)絡(luò)視頻進行訓(xùn)練的,而第二個模型則是通過讓機器人觀看自己在實時攝像機畫面上的表情來訓(xùn)練的。他們通過與其他基線進行定量評估,證明了這兩個模型的有效性。
圖|模型架構(gòu)。逆向模型(A)和預(yù)測模型(B)
為了訓(xùn)練 Emo 學會做出面部表情,研究團隊把 Emo 放在攝像頭前,讓它做隨機動作。幾個小時后,Emo 就學會了面部表情與運動指令之間的關(guān)系——就像人類通過照鏡子練習面部表情一樣。他們將其稱為“自我建?!薄愃朴谌祟愊胂笞约鹤龀鎏囟ū砬闀r的樣子。
然后,研究團隊播放人類面部表情的視頻,讓 Emo 逐幀觀察。經(jīng)過幾個小時的訓(xùn)練后,Emo 便可以通過觀察人們面部的微小變化來預(yù)測他們的面部表情。
在 Yuhang Hu 看來,準確預(yù)測人類的面部表情是人機交互技術(shù)的重要突破,“當機器人與人進行實時表情交互時,不僅能提高交互質(zhì)量,還有助于建立人與機器人之間的信任。未來,在與機器人互動時,機器人會像真人一樣觀察和解讀你的面部表情?!?/p>
值得一提的是,這項研究的潛在影響或許已經(jīng)超越機器人學,擴展到神經(jīng)科學和實驗心理學等領(lǐng)域。
例如,一個可以預(yù)測和同步面部表情的機器人系統(tǒng)可以作為研究鏡像神經(jīng)元系統(tǒng)的工具。通過在測量大腦活動的同時與參與者互動,研究人員可以深入了解社會互動和交流的神經(jīng)相關(guān)性。
在心理學領(lǐng)域,具有預(yù)測和同步面部表情能力的機器人可用作教育工具,幫助自閉癥患者發(fā)展更好的社交溝通技能。已有研究表明,機器人可以有效地吸引患有自閉癥譜系障礙(ASD)的兒童,促進他們的社交互動。
不足與展望
盡管 Emo 已經(jīng)可以預(yù)測人類面部表情并同步快速回應(yīng),但遠不具備完全捕捉到人類的面部交流能力,甚至在由成人模樣的機器人進行模仿時,可能會讓人感覺厭惡。
然而,研究團隊認為,就像嬰兒在學會模仿父母之后才能獨立做出面部表情一樣,機器人必須先學會預(yù)測和模仿人類的表情,然后才能成熟地進行更加自發(fā)和自我驅(qū)動的表情交流。
在未來的工作中,他們希望擴大 Emo 的表情范圍,并希望訓(xùn)練 Emo 根據(jù)人類所說的話做出表情。他們正在努力將語言交流整合到 Emo 中,并接入類似 ChatGPT 的大型語言模型。
然而,他們也表示,必須謹慎選擇機器人模仿的面部表情。例如,某些面部姿態(tài),如微笑、點頭和保持眼神接觸,通常會自然地得到回應(yīng),并且在人類交流中會被積極地看待。相反,對于噘嘴或皺眉等表情的模仿則應(yīng)謹慎,因為這些表情有可能被誤解為嘲諷或傳達非預(yù)期的情緒。
另外,人類用戶如何感知這些表情才是衡量成功與否的最終標準。未來的一個重要步驟是驗證這些表情在現(xiàn)實世界中人與機器人在各種情境下互動時的情感效果,以確定其心理有效性。
此外,該研究也存在一定的局限性,其中之一為“模型的預(yù)測和表情模仿可能缺乏文化敏感性”。
眾所周知,不同的文化可能會對某些面部表情有不同的規(guī)范和含義。例如,雖然在許多文化中,微笑通常被認為是快樂或友好的標志,但它也可能是尷尬或不確定的標志。同樣,直接的目光接觸在某些文化中可能被視為自信和誠實的表現(xiàn),但在其他文化中卻可能被視為粗魯或?qū)埂?/p>
未來的工作可以探索將文化背景融入到模型中,一個可能的方法是納入來自不同文化背景的數(shù)據(jù)集,并在算法中融入對文化規(guī)范的理解。
圖|Yuhang Hu 在 Hod Lipson 的實驗室工作。(來源:John Abbott/哥倫比亞工程學院)
最后,一個不能逃避的話題是,隨著機器人的行為能力越來越像人類,研究團隊必須考慮與這項技術(shù)相關(guān)的倫理問題。杜絕可能的技術(shù)濫用(如欺騙或操縱),需要強有力的倫理框架和管理。
盡管如此,這一研究也著實令人十分興奮。正如研究團隊所言:
“我們正逐步接近這樣一個未來——機器人可以無縫融入我們的日常生活,為我們提供陪伴、幫助,甚至是共鳴。想象一下,在這個世界上,與機器人互動就像與朋友交談一樣自然和舒適?!?/p>
參考鏈接:
https://www.science.org/doi/10.1126/scirobotics.adi4724
https://www.science.org/doi/10.1126/scirobotics.ado5755
https://www.engineering.columbia.edu/news/robot-can-you-say-cheese
https://www.creativemachineslab.com/