版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

微軟收購(gòu)Nuance背后隱秘的角落,一場(chǎng)車(chē)載語(yǔ)音交互的紛爭(zhēng)

智能相對(duì)論
深挖人工智能這口井,評(píng)出咸淡,講出黑白,道出深淺。
收藏

文|智能相對(duì)論(aixdlun)

作者|leo陳

前幾日,微軟官宣了一項(xiàng)重量級(jí)收購(gòu),花費(fèi)160億美元收購(gòu)Nuance,這也是微軟繼260億收購(gòu)Linkedin之后的第二大收購(gòu)。Nuance是美國(guó)最大語(yǔ)音識(shí)別公司,被稱為美國(guó)版“科大訊飛”。

1.png

除了Nuance本身在醫(yī)療領(lǐng)域的能力,其分拆出去并獨(dú)立上市后的車(chē)載語(yǔ)音部門(mén)Cerence也是本次收購(gòu)的動(dòng)力之一。這不禁讓人聯(lián)想,未來(lái)微軟會(huì)在車(chē)載語(yǔ)音上有所動(dòng)作?;蛟S,這是微軟在汽車(chē)行業(yè)的一次隱秘“落子”。

目前,全球科技巨頭紛紛布局智能汽車(chē)行業(yè),車(chē)載語(yǔ)音交互賽道也隨之產(chǎn)生劇烈變化。

從觸碰到語(yǔ)音,掀起一場(chǎng)供應(yīng)商交互紛爭(zhēng)

隨著智能電動(dòng)車(chē)崛起,座艙更加智能,更多車(chē)輛搭載擁有大量功能的車(chē)機(jī)系統(tǒng)和不同級(jí)別的駕駛輔助,造成座艙內(nèi)信息大爆炸。面對(duì)海量的信息,智能汽車(chē)的中控大屏越來(lái)越大。

但細(xì)想,這些屏幕的內(nèi)容集中高且有多個(gè)層級(jí),輸出信息是高效的,可做信息輸入顯然是低效的。而語(yǔ)音交互,理論上指令可以有無(wú)數(shù)條,可以實(shí)現(xiàn)一步直達(dá)任何功能。正因如此,語(yǔ)音交互的價(jià)值再次浮現(xiàn)。

高工智能汽車(chē)研究院監(jiān)測(cè)數(shù)據(jù)顯示,2020年國(guó)內(nèi)新車(chē)(合資+自主品牌)前裝搭載語(yǔ)音識(shí)別及交互功能上險(xiǎn)量為1206.4萬(wàn)輛,同比增長(zhǎng)17.88%。在搭載率方面,則從2019年的49.82%提升至63.25%,車(chē)載語(yǔ)音已成為汽車(chē)?yán)^中控屏外的第二交互手段。

實(shí)際上,近兩年語(yǔ)音交互迎來(lái)新一輪發(fā)展,不僅因?yàn)槠漭^屏幕交互有著獨(dú)特優(yōu)勢(shì),更是由于可以和“智能”做到深度融合,升級(jí)為“語(yǔ)音助手”。

智能汽車(chē)接入的生態(tài)服務(wù)資源廣泛,司機(jī)和乘客使用服務(wù)會(huì)變得高頻,語(yǔ)音交互系統(tǒng)可以從中獲取海量的數(shù)據(jù)。而數(shù)據(jù)來(lái)源于司乘日常的對(duì)話,相對(duì)豐富詳細(xì),系統(tǒng)通過(guò)深度學(xué)習(xí)培養(yǎng)后也就越“智能”。

這與屏幕交互很大的不同在于,數(shù)據(jù)必然會(huì)加速汽車(chē)交互系統(tǒng)的更新迭代。而交互系統(tǒng)使用體驗(yàn)的提升,會(huì)使得司乘進(jìn)一步提高使用頻率,產(chǎn)生新的數(shù)據(jù)。兩者之間相輔相成,互相促進(jìn)。

另一個(gè)不同在于,語(yǔ)音助手可以更好地同內(nèi)容生態(tài)連接,把移動(dòng)互聯(lián)網(wǎng)的產(chǎn)品和服務(wù)搬到汽車(chē)上,讓自身商業(yè)體系的優(yōu)勢(shì)得以凸顯。這也是除了體驗(yàn)外,汽車(chē)廠商著眼語(yǔ)音交互的關(guān)鍵動(dòng)力。

但隨著產(chǎn)品不斷推進(jìn),車(chē)載語(yǔ)音供應(yīng)商之間的競(jìng)爭(zhēng)愈發(fā)白熱化。在技術(shù)鏈路上,語(yǔ)音交互大致包括聲學(xué)前端,語(yǔ)音識(shí)別(ASR)、自然語(yǔ)言處理(NLP)等。當(dāng)下競(jìng)爭(zhēng)不僅集中在自然語(yǔ)言處理,而且衍生到背后數(shù)據(jù)和計(jì)算能力的比拼。

2020年數(shù)據(jù)顯示,排名前八的供應(yīng)商市場(chǎng)份額超過(guò)99%。Cerence和科大訊飛繼續(xù)占據(jù)市場(chǎng)份額的前兩位,合計(jì)份額超過(guò)70%,不過(guò)數(shù)字已經(jīng)開(kāi)始出現(xiàn)下滑跡象;百度排名第三,份額為7.24%。

這一塊目前的問(wèn)題是,在一些高頻對(duì)話的定義上,整體效果較好,但在一些低頻的對(duì)話上,受限于語(yǔ)料、數(shù)據(jù)量不足,體驗(yàn)上不盡人意。如何利用AI更好地推進(jìn)自然語(yǔ)言處理,對(duì)公司的技術(shù)研發(fā)實(shí)力和積累提出高要求。

也因如此,該領(lǐng)域具備天然的競(jìng)爭(zhēng)壁壘,先發(fā)優(yōu)勢(shì)和規(guī)模效應(yīng)尤為明顯。這是BAT等科技巨頭難以實(shí)現(xiàn)快速滲透,市占率無(wú)法提升的主要原因。

而Cerence目前是全球唯一專注這個(gè)方向的企業(yè),有著超過(guò)20年技術(shù)積累,兼顧科技巨頭以及細(xì)分領(lǐng)域玩家兩方的優(yōu)勢(shì)。一方面,早有著科技巨頭從生態(tài)上集成第三方應(yīng)用協(xié)作的能力,利用認(rèn)知仲裁技術(shù)實(shí)現(xiàn)了第三方內(nèi)容在系統(tǒng)上共存,簡(jiǎn)化了助手執(zhí)行任務(wù)的流程。

另一方面,具備科大訊飛等傳統(tǒng)玩家豐富的集成經(jīng)驗(yàn)和規(guī)模優(yōu)勢(shì),合作全球主流OEMs和Tier1供應(yīng)商。這不僅有助于加強(qiáng)成本優(yōu)勢(shì),同時(shí)幫助自身積累豐富的語(yǔ)言數(shù)據(jù),目前Cerence和科大訊飛已建立數(shù)十種語(yǔ)言的語(yǔ)音數(shù)據(jù)庫(kù)。

汽車(chē)廠商不同的實(shí)現(xiàn)路徑,帶來(lái)不同的想象空間

汽車(chē)進(jìn)入數(shù)字化和自動(dòng)駕駛新時(shí)代,電子架構(gòu)從分布式架構(gòu)到域集中架構(gòu),再到跨域融合,汽車(chē)廠商開(kāi)始掌握更多的主導(dǎo)權(quán)。隨之,作為需求側(cè)的廠商同語(yǔ)音供應(yīng)商合作時(shí),不再單一地走通用方案,而轉(zhuǎn)向深入理解應(yīng)用場(chǎng)景、聯(lián)合深度定制。

在“智能相對(duì)論”看來(lái),未來(lái)汽車(chē)廠商的語(yǔ)音助手前裝方案將主要呈現(xiàn)兩種實(shí)現(xiàn)路徑:

一方面,一部分將傾向于打造自研的交互平臺(tái),并融合多家供應(yīng)商如科大訊飛和思必馳的優(yōu)勢(shì)技術(shù)支持。

自研這種做法劣勢(shì)在于成本問(wèn)題,改變核心領(lǐng)域的交互邏輯并將語(yǔ)義處理能力建立起來(lái),需要不斷地研發(fā)投入。為了打造強(qiáng)大的智能AI服務(wù)于系統(tǒng),大量的數(shù)據(jù)沉淀也會(huì)拉長(zhǎng)系統(tǒng)的更新周期。

而部分廠商選擇“偏向虎山行”,原因簡(jiǎn)單概括就是“閉環(huán)”二字。

相比向供應(yīng)商采購(gòu),自研平臺(tái)進(jìn)一步符合車(chē)輛的特性,有著相對(duì)自由的權(quán)限以及更好的適配。同時(shí),其迭代升級(jí)會(huì)更為迅速,響應(yīng)速度也更快。若要“全雙工”、“連續(xù)對(duì)話”、“免喚醒”、“全場(chǎng)景”等技術(shù)能力更好地實(shí)現(xiàn),自研就顯得尤為重要。

部分廠商會(huì)選擇這條實(shí)現(xiàn)路徑,也是為了更好抓住行業(yè)中長(zhǎng)期的趨勢(shì)。因?yàn)檐?chē)的量產(chǎn)周期很長(zhǎng),如果廠商不能“獨(dú)具慧眼”,未來(lái)車(chē)上搭載的語(yǔ)音方案就是落后的,和同時(shí)期的產(chǎn)品比就丟失了部分競(jìng)爭(zhēng)力。

以蔚來(lái)、理想、小鵬為代表的造車(chē)新勢(shì)力是最典型的例子,它們?nèi)孕杞柚Z(yǔ)音供應(yīng)商,但自研比例在逐漸提高。

蔚來(lái)有著NOMI Mate小機(jī)器人的車(chē)載AI系統(tǒng),如今其已升級(jí)至2.0版本,解鎖了更多的功能和表情顯示。蔚來(lái)較早選擇車(chē)載語(yǔ)音“擬人化”這個(gè)思路獨(dú)樹(shù)一幟,但的確走出了預(yù)想的效果,引發(fā)了后續(xù)多家效仿。通過(guò)“擬人化”,語(yǔ)音被抽象為人物形象的情感表達(dá),反過(guò)來(lái)加深用戶對(duì)品牌的印象。

2.png

小鵬的“玩法”似乎“直接且硬核”。去年10月,其發(fā)布了自己的全場(chǎng)景語(yǔ)音,包括多輪對(duì)話、語(yǔ)義打斷、雙音區(qū)鎖定和可見(jiàn)即可說(shuō)4個(gè)功能。在技術(shù)層面,小鵬自主搭建了一套語(yǔ)音框架,以便自主定義語(yǔ)音的全流程體驗(yàn),不受限于供應(yīng)商的開(kāi)放能力范圍限制。但必須承認(rèn),這需要長(zhǎng)期投入人力物力財(cái)力。

另一方面,其他品牌則更多傾向于直接或間接選擇提供整體解決方案的供應(yīng)商,比如Cerence、科大訊飛、BAT等供應(yīng)商。

一般來(lái)說(shuō),整體解決方案僅小量自定義即可交付,特別適合車(chē)型品類和數(shù)量都非常豐富的汽車(chē)品牌,性價(jià)比相對(duì)更高。

當(dāng)下,吉利汽車(chē)和長(zhǎng)城汽車(chē)等我國(guó)自主品牌主要是走這條實(shí)現(xiàn)路徑。以長(zhǎng)城汽車(chē)為例,去年4月,其戰(zhàn)略合作伙伴仙豆智能選定Cerence ARK來(lái)提供數(shù)字助理方案。與全球領(lǐng)先的供應(yīng)商建立合作后,自主品牌的語(yǔ)音交互并不遜色于造車(chē)新勢(shì)力。

在這場(chǎng)語(yǔ)音交互“智能化”趨勢(shì)下,傳統(tǒng)豪華品牌如奔馳、奧迪、寶馬反而不是話語(yǔ)權(quán)的掌管者,和國(guó)內(nèi)消費(fèi)者對(duì)它們根深蒂固的認(rèn)同感形成強(qiáng)烈反差。

傳統(tǒng)豪華品牌在汽車(chē)數(shù)字化上相對(duì)保守,往往選擇某一個(gè)車(chē)系的一款車(chē)型嘗試升級(jí)。不選擇自研能夠?qū)㈤_(kāi)發(fā)周期大幅縮短,加上自身的汽車(chē)量產(chǎn)能力,可以快速將產(chǎn)品向市場(chǎng)鋪開(kāi)。

2020款?yuàn)W迪A4L語(yǔ)音系統(tǒng)由出門(mén)問(wèn)問(wèn)提供,同時(shí)搭載了Cerence和天貓精靈的相關(guān)能力。整體體驗(yàn)比其他豪華品牌要好,但遠(yuǎn)算不上第一梯隊(duì)。

Cerence和出門(mén)問(wèn)問(wèn)分別為這款車(chē)提供了一套ASR和NLU能力,兩者算是并行關(guān)系。所以用戶輸入任何一個(gè)指令,兩個(gè)通道都要跑一遍,最后統(tǒng)一口徑實(shí)行指令,流暢度不佳。

當(dāng)下,傳統(tǒng)豪華品牌的智能化升級(jí)迫在眉睫,車(chē)內(nèi)人機(jī)交互的體驗(yàn),已然成為各大廠商競(jìng)爭(zhēng)的焦點(diǎn)。新勢(shì)力攪動(dòng)市場(chǎng),自主品牌紛紛發(fā)力,智能汽車(chē)市場(chǎng)的競(jìng)爭(zhēng)如火如荼。

下一代交互盯住“主動(dòng)多模態(tài)”,仍需邁過(guò)“雞肋”這道坎

激烈的競(jìng)爭(zhēng)一定程度上推動(dòng)著語(yǔ)音交互產(chǎn)品提高用戶體驗(yàn),也使得愈多用戶長(zhǎng)期接受這種交互方式。智能電動(dòng)汽車(chē)時(shí)代,“軟件定義汽車(chē)”這句話深入人心,但“語(yǔ)音”遠(yuǎn)遠(yuǎn)不能定義交互。

在整車(chē)底盤(pán)之上,還有攝像頭、HUD、玻璃、車(chē)燈(氛圍燈、外飾燈)等有望成為未來(lái)座艙端的交互產(chǎn)品。而語(yǔ)音交互能夠承載海量數(shù)據(jù)、帶來(lái)駕駛更高安全性等等,更會(huì)是交互產(chǎn)品生態(tài)的中心。

3.png

所以“智能相對(duì)論”認(rèn)為,以語(yǔ)音交互為中心的“主動(dòng)多模態(tài)交互”會(huì)是未來(lái)的方向。

不同功能的攝像頭好比多雙“眼睛”,能夠進(jìn)行手勢(shì)識(shí)別、情緒識(shí)別,發(fā)現(xiàn)你的需求。這種情況下,攝像頭帶來(lái)的是交互系統(tǒng)“主動(dòng)”提供服務(wù),與其他地交互方式截然相反。當(dāng)語(yǔ)音這種“被動(dòng)式”和視覺(jué)的“主動(dòng)式”融合,整個(gè)交互產(chǎn)品生態(tài)會(huì)為用戶提供更豐富的服務(wù)和信息。

例如,將車(chē)輛、行人、車(chē)道、標(biāo)志識(shí)別融合導(dǎo)航信息進(jìn)行實(shí)時(shí)渲染,提供行車(chē)預(yù)警及導(dǎo)航指引等系列功能,并通過(guò)HUD投影至擋風(fēng)玻璃上,帶來(lái)更直觀的導(dǎo)航駕駛體驗(yàn)。

與此同時(shí),通過(guò)視線追蹤、手勢(shì)交互等操作對(duì)艙內(nèi)座椅、燈光、空調(diào)、音樂(lè)等所有功能進(jìn)行控制,從而在保障安全駕駛的情況下讓人機(jī)交互更易用,并配合人臉識(shí)別身份認(rèn)證技術(shù),提供駕駛員身份檢測(cè)以支持個(gè)性化功能實(shí)現(xiàn)。

愿景是美好的,但現(xiàn)實(shí)是,當(dāng)下視覺(jué)交互落地的案例屈指可數(shù)。寶馬的手勢(shì)識(shí)別在2015年率先登陸寶馬7系,2019年下放到3系,通過(guò)攝像頭主要識(shí)別確認(rèn)、調(diào)節(jié)音量大小、接聽(tīng)和掛斷電話。識(shí)別率很高,但屏幕系統(tǒng)流暢程度和反應(yīng)非常流暢,手勢(shì)識(shí)別反而顯得雞肋。

如何平衡好語(yǔ)音、視覺(jué)等多模態(tài)之間的交互邏輯,是現(xiàn)階段各家一直在探索的問(wèn)題。

體驗(yàn)參差不急,導(dǎo)致整個(gè)產(chǎn)品生態(tài)的價(jià)值沒(méi)有真正凸顯。最重要的是語(yǔ)音和視覺(jué)沒(méi)有從根本上融合,仍然是單打獨(dú)斗的狀態(tài)。

實(shí)現(xiàn)功能的整合并非易事,尤其是從被動(dòng)指令到主動(dòng)提供服務(wù),需要成熟的AI技術(shù)的支撐。如果這種細(xì)微的服務(wù)能做好,體驗(yàn)會(huì)有大幅提升,用戶粘性會(huì)隨之提高。

若拋開(kāi)技術(shù)先看交互的目的,是為了提供更多的服務(wù)。而服務(wù)背后,則是廣泛的內(nèi)容生態(tài),社交、地圖、音樂(lè)等等。因此,如果能夠?yàn)橛脩籼峁└嗟纳鷳B(tài)內(nèi)容服務(wù),交互產(chǎn)品生態(tài)的數(shù)據(jù)逐漸積累,人機(jī)交互也將更加智能。而這,必然需要多方的共同努力。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

深挖智能這口井,同好添加vx:zhinengxiaoyan

此內(nèi)容為【智能相對(duì)論】原創(chuàng),

僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。

智能相對(duì)論(微信ID:aixdlun):

?AI產(chǎn)業(yè)新媒體;

?今日頭條青云計(jì)劃獲獎(jiǎng)?wù)逿OP10;

?澎湃新聞科技榜單月度top5;

?文章長(zhǎng)期“霸占”鈦媒體熱門(mén)文章排行榜TOP10;

?著有《人工智能 十萬(wàn)個(gè)為什么》

?【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開(kāi)發(fā)者以及背后的芯片、算法等。