當前速遞!ChatGPT 上“車”?沒那么簡單
劃重點:
車載語音智能化的短板在“語義理解”,AI 圈大火的 ChatGPT 對車載語音智能化加成明顯。
(相關資料圖)
ChatGPT 上車,主要還是成本的問題,這背后包括使用成本、云服務成本、針對性的訓練成本。
云知聲董事長 & CTO_梁家恩對 TechWeb 表示,ChatGPT 技術肯定會在車載、家居等智能交互應用有建樹,但需要結合應用場景針對性優(yōu)化。
思必馳汽車事業(yè)部產品總監(jiān)葛付江對 TechWeb 表示,新技術發(fā)展一定會存在商業(yè)落地的挑戰(zhàn),AI 技術創(chuàng)新要結合場景應用,類 ChatGPT 在車載的應用會在算力優(yōu)化、云和端智能融合技術等方面形成挑戰(zhàn)。
ChatGPT 的火,一下子就燒到了車載領域。
眾所周知,語音交互是車內最簡潔、最人性化、最安全的交互方式,也是未來最主要的車內交互方式。隨著 AI 和硬件性能的增強,語音交互是未來汽車的絕對主流。語音交互主要是車載自然語音識別與語音助手,也可以簡單地說是 NLP 和 NLU 技術。既然是 NLP,那么理應是最近在 AI 圈大火的 ChatGPT 的用武之地。事實真的如此嗎?
車載語音智能化,短板在“智能”
從技術角度看,智能語音交互主要有三大重點,分別是識別、理解、執(zhí)行。在目前提供解決方案的廠商中,識別部分已經趨于成熟,識別率可以達到 90% 以上,有的識別率已達 95% 左右。行業(yè)的痛點主要聚焦于“理解”部分,大部分的車載語音交互系統(tǒng)在“理解”上并不智能,導致整個系統(tǒng)功能單一、命令詞單一。
那么問題來了,如何讓車載語音交互系統(tǒng)像人一樣理解我們的話語?
這就涉及到 NLP(自然語言處理)技術,它們對于用戶輸入語音的理解與本身的場景策略、多輪對話有著密不可分的關系,并直接決定著車載語音交互系統(tǒng)的智能化程度。而提及 NLP,正中近期大“火”的 ChatGPT 的下懷,是 ChatGPT 的用武之地。
歷史上,NLP 的發(fā)展有幾個關鍵節(jié)點,其中,最重要的兩個當屬 2012 年和 2018 年。
2012 年,深度學習開始應用于 NLP 領域;2018 年開始,以谷歌 BERT 為代表的語義表示預訓練取得了巨大突破,橫掃各大 NLP 任務基準;2020 年 5 月,OpenAI 斥巨資打造的 GPT-3 一經發(fā)表就引發(fā)行業(yè)轟動,這一版本的模型有 1750 億參數量,被稱為 NLP 領域的最強 AI 模型。
而最近大“火”的 ChatGPT 是基于大規(guī)模預訓練語言模型(GPT-3.5),借助其強大的語言理解和生成能力,通過在人工標注和反饋的大規(guī)模數據上進行學習,從而讓預訓練語言模型能夠更好地理解人類的問題并給出更好的回復。
思必馳汽車事業(yè)部產品總監(jiān) 葛付江對 TechWeb 表示,ChatGPT 目前是以文本交互機器人的形式呈現的,適用多種文本處理任務,常用于智能問答和對話、文本創(chuàng)作等領域;車載語音以對話交互為主,多用于進行例如“導航去 XXX?打開音樂”有明確指令的行動,“語音助手”用高度擬人化的語音輸出來回應車主訴求。車載語音交互用于解放駕駛員雙手,聚焦其注意力帶來更安全、便利的駕駛體驗。未來車內有了 ChatGPT 技術的應用,不僅是完成固定指令的任務型對話,車、人能進行更高效、更直接、高靈活度的出行、知識和閑聊交流;
“ChatGPT”的爆火讓市場看到了認知智能應用潛力。ChatGPT 在推理和學習能力上優(yōu)勢明顯,不僅可以用于理解和對話,更可以通過上下文交流和自我學習,來實現輔助創(chuàng)作和知識進化。這些能力同樣適用車載語音交互領域,融合對話智能技術、深度學習大模型技術、工程化能力、大數據的潛力,帶來更流暢、更有效的響應。在車內有限的空間,結合聲場定位和多說話人判斷,提升多角色、長上下文對話的邏輯一致性;更可以拓展?jié)M足方言、外語的統(tǒng)一識別和對話需求,快速實現更靈活、自由、個性化的交互。”葛付江說道。
從目前諸多對于 ChatGPT 的使用(包括我們自己),我們認為,僅就車載智能語音的 NLP,目前它應該是最好和最智能的。這是否意味著,其就一定會在短期內應用在車載智能語音系統(tǒng)中嗎?
市場空間有限,產業(yè)鏈、市場挑戰(zhàn)猶存
眾所周知,一個新的技術或者產品能否最終落地得到規(guī)模的應用,除了技術因素外,還會受到其所處產業(yè)或者市場的產業(yè)鏈、市場競爭強弱、市場空間等諸多因素密切相關。
具體到車載智能語音系統(tǒng),雖然 ChatGPT 在“智能”上表現出色,但其在整個產業(yè)鏈條中比較偏后段,需要依賴很長的前端鏈條,比如信號處理、語音識別、文字輸出之后才會用到它,前端鏈條上的因素對后端流程都會產生影響,例如信號處理會影響語音識別,語音識別如果出錯就會影響 NLP 的判斷,鏈條上每個模塊都需要提高可靠性,才能保證最后出來的整體結果可靠。這意味著,ChatGPT 在“智能”能力的輸出上,并非完全取決于自身的能力,其產業(yè)鏈上任何一個環(huán)節(jié)都會對其造成正或負的影響。
云知聲董事長 & CTO_梁家恩對 TechWeb 表示,ChatGPT 技術肯定會在車載、家居等智能交互應用有建樹,但需要結合應用場景針對性優(yōu)化,提高體驗并降低服務成本等。
“車載等智能交互應用場景有很大體驗升級空間,但目前 ChatGPT 是一個超大模型,如何保持體驗情況下,顯著降低服務成本是個關鍵問題“。
而從市場競爭的強弱看,據相關統(tǒng)計,目前車載語音系統(tǒng)市場除了已經被科大訊飛和 Cerence 壟斷,且它們在此領域具有多年的產品和合作經驗外,還有許多規(guī)模不同的企業(yè)參與其中,更為重要的是,目前車載語音市場已經遇到了增長的天花板,這使得在競爭激烈的同時,就連科大訊飛和 Cerence 都開始除了語音之外,開始走車內多模態(tài)交互,云服務集成等服務的路線,以綜合實力提升競爭力。作為后來者的 ChatGPT 一旦決定進入車載智能語音市場勢必會面臨強大對手的挑戰(zhàn)。
葛付江補充稱,從成本來看,ChatGPT 的研究需要巨大的資金和人才投入,他們需要超算平臺、算法、數據等各核心力量支撐,這些都是成本。巨頭平臺公司目前來看具備這方面的優(yōu)勢,對于科技企業(yè)可以更多從場景融合入手,尋求創(chuàng)新機會。
從商業(yè)化場景看,目前 chatGPT 更適用于基于一定背景知識的創(chuàng)作型產業(yè),以及剛需 AIGC 的場景、SOP(標準作業(yè)程序)的行業(yè),比如智能寫作、智能客服、文檔管理、代碼生成、甚至游戲 NPC 等。
班門弄斧主理人孫永杰指出,從單純的車載語音市場看,其市場空間并不大,這點從已經壟斷該市場的科大訊飛和 Cerence 的財報可見一斑。這種情況下,能否吸引成本高昂的 ChatGPT 進入也是個未知數。畢竟 ChatGPT 訓練成本高昂,且其所屬的 Open AI 依然處在虧損當中。
未來仍可期,合作和開放 API 或是更好選擇
如前述可知,ChatGPT 只是在車載智能語音的 NLP 環(huán)節(jié)具備優(yōu)勢,雖然 ChatGPT 據稱也在進行語音識別和合成上進行 AI 訓練,希望未來可以借此進入車載智能語音市場。但鑒于 ChatGPT 只是文本交互方式,即便是進行語音識別和合成的 AI 訓練,最后效果如何?能否超過目前市面上存在和已經應用的車載智能語音系統(tǒng)仍是未知。
當然,鑒于 ChatGPT 強大的能力,TechWeb 認為未來的市場空間會隨著智能汽車應用場景的不斷擴大,ChatGPT 找到自己真正的用武之地并非沒有可能。更值得期待的是,除了智能汽車本身外,站在整個汽車產業(yè)的高度,其未來在汽車設計、制造等領域的應用都充滿想象的空間。
葛付江表示:“ChatGPT 上車的應用具體如何發(fā)展,目前形勢還不明朗??深A見的是,在車載場景下,大模型技術學習能力優(yōu)勢明顯,通過強化上下文理解能力、思維鏈推理、增強指令學習,來實現持續(xù)學習,達成可以“回答類似問題”的效果,除指令需求外,日常的知識和閑聊對話交流可以更加流暢和有用。總體來說,技術會向統(tǒng)一多模態(tài)交互發(fā)展,強化語音、文本、圖像等深度融合的多模態(tài)交互技術,形成“汽車大腦”,應對車內、公共空間等復雜場景的交互需求?!?/p>
小鵬技術團隊對 TechWeb 表示,ChatGPT 的語言組織能力很強,以及知識庫也比較龐大,涉及領域更廣,所以可能會給用戶的體驗更好更智能。至于我們未來要 不要引入這個技術接口,還是做類似技術的融合開發(fā),我們也在進一步探索~
基于此,TechWeb 認為,合作應該是 ChatGPT 切入車載智能語音市場最經濟和有效的方式。所謂各取所長就是這個道理。實際的情況是,近日國內集度汽車宣布將融合百度文心一言的全面能力,打造全球首個針對智能汽車場景的大模型人工智能交互體驗,證明了此模式的可行性。
此外,將自己最擅長的能力通過 API 開放給第三方,僅輸出自身最擅長的能力也不失為明智的選擇。