2023 年 3 月,以 GPT-4 為代表的 AI 技術掀起了一波 AI 熱,而時隔半年,AI 領域又有了很多新進展,其中有一些可能會徹底改變身為“打工人”的生活。
下面,我們就來盤點一下這半年來,AI 領域那些最值得你關注的事情。
GPT 最大對手 Gemini 出現(xiàn)
2023 年 5 月,在 Google I/O 開發(fā)者大會上,谷歌 CEO 劈柴(PiChai)透露出谷歌旗下的 Deep Mind 正在訓練 Gemini(雙子星)模型。
Gemini 是專門對標 GPT-4 的大語言模型,根據(jù)半導體研究公司 SemiAnalysis 的分析,Gemini 的算力會達到 GPT-4 的 5 倍。
另外和 GPT-4 相比,Genimi 能更好地支持多模態(tài)輸入,這意味著除了文字信息,Gemini 還能處理圖片、語音信息,這讓 Gemini 用起來可能會比現(xiàn)在的 GPT-4 更加方便。
而且我們可能很快就能見證 Gemini 的表現(xiàn)。根據(jù)海外科技媒體《The Information》在 9 月 14 日的報道,Gemini 已經(jīng)向一些公司開放了使用、測試的權限??赡芤涣硕嗑?Gemini 就會部署到谷歌的產(chǎn)品矩陣中,開始為大眾服務。
圖源:網(wǎng)絡
Open AI 訓練,更加多才多藝的“GPT-5”
當然了,面對 Gemini 這樣具有多模態(tài)能力的對手,OpenAI 也不會坐以待斃。
其實早在今年 3 月份的 GPT-4 發(fā)布會上,GPT-4 就展現(xiàn)出了多模態(tài)的處理能力。當時發(fā)布會上,演示者手繪了一張網(wǎng)頁的草圖,拍照發(fā)給 GPT-4 告訴它按這種布局做個網(wǎng)頁,GPT-4 立即寫出了網(wǎng)頁代碼。
不過在發(fā)布會結束后的實際應用中,使用者們似乎并沒有體驗到 ChatGPT 的多模態(tài)處理能力。
為了應對谷歌的 Gemini 的挑戰(zhàn),OpenAI 將 ChatGPT 和新型圖像生成模型 DALL·E-3 結合起來,讓 GPT 更加“多才多藝”。在 9 月 25 日,GPT-4 版本更新之后,它也能夠處理語音和圖片信息。
比如,下面是用 DALL·E-3 和 ChatGPT 共同生成的內(nèi)容。GPT 不僅能夠根據(jù)文字繪制對應的圖片,也能解釋圖片上的信息,并且根據(jù)對話對圖片進行一些修改。
DALLE3 根據(jù)文本創(chuàng)作的圖片
GPT 解釋為什么圖片中的小刺猬這么好
按照要求“展現(xiàn)小刺猬很熱心”DALL·E 3 生成的圖片
除了把 DALL·E-3 和 ChatGPT 結合起來,OpenAI 也開始部署“GPT-5”。在 9 月 25 日發(fā)布的 GPT 新版本中,已經(jīng)引入了語音交流和識別圖像的測試功能。
其實在今年 3 月(也就是在 GPT-4 出現(xiàn)之后不久),出于對信息安全、隱私等方面的擔憂,網(wǎng)絡上曾經(jīng)掀起過一股呼吁暫緩研究 GPT-5 的浪潮。作為 OpenAI 的 CEO,薩姆·奧特曼也承諾短期內(nèi)不會訓練 GPT-5 模型。
根據(jù) The Information 的報道,在 GPT-4 出現(xiàn)之后半年,OpenAI 已經(jīng)開始研發(fā)一款新的代號“Gobi”的模型,這種模型在設計之初就具有多模態(tài)能力。甚至一些媒體聲稱,它有可能會是未來的 GPT-5。
微軟發(fā)布“打工人福利套餐”:Microsoft Copilot
9 月 21 日,微軟發(fā)布了 Microsoft Copilot 全家桶。如果你對 Microsoft Copilot 比較陌生,那可以這么理解,我們常用的 Word、Excel、PPT 等軟件以及 Windows 自帶的瀏覽器都將獲得 GPT-4 的加持。
以我們最常用的 Word 為例,在寫文稿的時候,你可以直接告訴 Word 一個主題,讓它自動生成一段和這個主題相關的文稿。同時,它還具備配圖功能,你甚至不需要花時間在網(wǎng)上找圖,直接讓它根據(jù)文字生成圖片即可。
還有 Excel,在新的 Microsoft Copilot 全家桶中,你不再需要記各種公式,也不需要在 Excel 里編程,只需要告訴 Excel 你的目的,它會自動替你完成寫公式、寫代碼、分析數(shù)據(jù)的工作,你只需要等著看結果就可以了。
除此之外,在瀏覽網(wǎng)頁的時候,你甚至可以不用詳細閱讀網(wǎng)頁的內(nèi)容,瀏覽器可以直接幫你總結出當前頁面的重要信息,幫你大大節(jié)約時間。
這可能是這半年來對打工人最“友好”的 AI 大禮包。
AI 幫助人類了解氣味
在人類的視覺、聽覺、嗅覺中,嗅覺可能比我們想象的復雜得多。
對于視覺,我們看到的顏色可以跟光的波長建立關聯(lián),對于聽覺,聲音跟物體的振動頻率有關。而對于嗅覺,人類不僅擁有數(shù)百個嗅覺感受器,生活中常見的味道往往是由很多種類的氣味分子共同形成的,因此很難建立一個簡單又完美的數(shù)學模型。
今年 8 月發(fā)表在《科學》上的一篇論文指出,科學家通過“圖形神經(jīng)網(wǎng)絡”的 AI 技術,識別出了氣味與成分之間的關聯(lián),生成了氣味圖譜。依據(jù)這個圖譜,我們就可以利用已知的化合物去配置想要的味道。
更重要的是,AI 繪制的氣味地圖涵蓋了 50 萬種潛在的氣味,這意味著在 AI 的幫助下,我們可能能聞到之前從未想象過的味道。這可能會大大改變食品還有香料行業(yè)的現(xiàn)狀,讓我們的生活更“有味”。
AI 識別氣味的過程,圖片來源:參考文獻
自動駕駛親口告訴你,自己是怎么開車的
在 9 月 14 日,自動駕駛公司 Wayve 發(fā)布了開環(huán)自動駕駛評論器 LINGO-1。我們可以把它簡單理解成是一種自動駕駛解說器。
自動駕駛為什么需要配一個解說器?其實這是一項非常有趣又很重要的研究。想象一下,你在開車的時候,每做一個選擇、動作肯定是有某個依據(jù)的。比如,你覺得前面的車太慢了,同時旁邊的車道又很空很安全,于是你決定去開到旁邊的車道去超車,或者在路口你放慢了車速,是因為這里人比較多,你需要謹慎觀察周圍的環(huán)境。
LINGO-1 也能夠把自動駕駛汽車每一步的行為用人們熟悉的自然語言解釋出來,還能根據(jù)人類的特定問題作出回應,比如當自動駕駛汽車停在路口的時候,你可以問它“你現(xiàn)在在觀察什么?”;如果身邊有人在騎自行車,你也可以問自動駕駛汽車“你怎么判斷你跟這個騎自行車的人保持了安全距離?”
目前 LINGO-1 的回答準確率大約只有 60%,但 LINGO-1 的能力還在不斷提升,而且這種研究意義很大。
它能夠提高人工智能的可解釋性。過去自動駕駛汽車的很多決策對人類來說都是一個黑箱,我們不知道汽車為什么要變道行駛,也不知道為什么前面明明可以超車,它卻選擇不超車。在了解 AI 是怎么樣做決定之后,工程師們也能更好地設計自動駕駛算法,不斷提高自動駕駛汽車的安全性。同時也能增加普通用戶對自動駕駛的理解和信任,讓人工智能做決策的過程不再是一個黑箱。
AI 在多項比賽中超越人類
8 月 30 日,一篇發(fā)表在《自然》上的文章顯示,在第一人稱視角的無人機競速項目上,AI 已經(jīng)超越了人類。
第一人稱視角的無人機競速跟一般的遙控飛機不一樣,飛行員需要從高速飛行的無人機視角觀察環(huán)境,進行操縱。對 AI 來說,AI 需要快速分析視頻傳感器中傳回的信息,并做出決策優(yōu)化飛行路線。按照《自然》文章中的說法,能夠在這項比賽中打敗人類冠軍,是“移動機器人和機器智能領域的里程碑”。這項成果可能對未來的自動駕駛汽車、無人飛行器具有重要的價值。
除了在無人機領域,在驗證碼領域,AI 也有驚人的表現(xiàn)。
驗證碼在生活中非常常見,當你想輸入賬號登錄網(wǎng)頁的時候,往往會看到各種各樣的驗證碼,包括識別奇形怪狀的字母、數(shù)字,拖拽拼圖一樣的滑塊,或者點擊“腦袋向上”的圖片。這些驗證碼的目的是防止機器人惡意登錄、注冊。
但 2023 年 7 月的一篇文章顯示,AI 可能比人類更擅長應對驗證碼。實驗邀請了超過 1000 名人類測試者讓他們使用 120 個主流網(wǎng)站上的驗證碼。
結果發(fā)現(xiàn),人類解決驗證碼問題的準確率在 50%~80%,相比之下,AI 解決驗證碼的準確率在 85%~100%,大部分都在 96% 以上。除了準確率比人高,AI 解決驗證碼的時間也比人類快 0.5 秒。
這意味著,隨著 AI 技術的發(fā)展,人類用來防范 AI 的驗證碼作用可能也越來越小,這對網(wǎng)絡和信息安全來說是一項非常嚴峻的挑戰(zhàn)??茖W家們需要開始設計能防住 AI、又不會把人類難倒的新型驗證碼了。
人腦模擬計劃“失敗”
雖然近些年人工智能技術突飛猛進,但是在用 AI 模擬人腦這件事上,人類慘遭“滑鐵盧”。
在 2013 年,歐洲的科學家們開啟了一個為期 10 年的“人類大腦計劃”??茖W家們打算在 10 年的時間里,用頂尖的計算機技術模擬人腦的上百億個神經(jīng)元和它們的神經(jīng)突觸,從而還原人類大腦的運行過程,揭開人類大腦的奧秘。
今年 10 月 1 日,就是這個項目的“兌現(xiàn)”時間,但科學家們總共投入了 13 億歐元(約 100 億人民幣),卻始終距離“模擬人類大腦”這個目標相去甚遠,科學家們遠遠低估了人類大腦的復雜程度??梢哉f,這是人類建造“人工智能”嘗試上的一次失敗。
雖然在人類大腦計劃中,人類沒有成功建立起一個“人工智能”,但這樣的探索非常有意義。在這個項目中,科學家們確實對人類大腦有了更深層次的了解。比如科學家們繪制出了更詳盡的人類大腦圖譜,在前額葉皮層中還發(fā)現(xiàn)了幾個之前未知的腦區(qū)。
另外,科學家們建立起了基因表達和大腦結構之間的關聯(lián),科學家們能夠從基因?qū)用嫔涎芯恳恍┐竽X結構相關的疾?。ū热缫钟舭Y)。一些數(shù)字大腦模型在帕金森等疾病領域也已經(jīng)有了臨床應用。
圖源:unsplash.com 攝影師:Xu Haiwei
除了歐洲的人腦計劃,中國、美國、日本、韓國、澳大利亞等國家也都有自己的人腦計劃,只有我們更深入地了解人腦結構,了解智能的本源,才能更好地發(fā)展“人工智能”技術。
人工智能領域的發(fā)展極其迅速,在半年里,GPT-4 就遇到了強勁對手、AI 幫助人類構建起了氣味圖譜和更詳盡的大腦圖譜,自動駕駛汽車也擁有了“講解員”。
正是這樣迅猛的技術發(fā)展,讓我們能夠享受到更加安全、便捷的生活。它們的發(fā)展是生活中每天都在上演的科幻大片。
參考文獻
[1] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini
[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai
[3] https://openai.com/dall-e-3
[4]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/
[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/
[6] https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/
[7] https://www.nature.com/articles/d41586-023-02600-x#ref-CR3
[8] https://arxiv.org/pdf/2307.12108.pdf
[9] https://qz.com/ai-bots-recaptcha-turing-test-websites-authenticity-1850734350
[10] https://www.nature.com/articles/s41586-023-06419-4
策劃制作
作者丨科學邊角料 科普團隊
審核丨于旸 騰訊安全玄武實驗室負責人
策劃丨崔瀛昊
責編丨林林