在人類語音的機器翻譯領域內的進展還遠遠沒有發展到為主流用戶帶來實質性好處的地步,與機器人對話依然還不太順暢。目前在低功耗音頻技術方面的開發活動具有了改善這種永遠是瓶頸的人機交互關系的潛力,而這種先前曾阻礙了語音識別領域內真正進步的瓶頸將被突破。一條通往人機互動領域內快速創新的道路正在開啟,這將沿著我們與機器人互動的方向引領諸多有趣的開發活動,這些機器人將能夠傾聽我們,而且越來越多地聽懂我們。
語音也許是人類最自然的交流方式,但是將一臺機器人引入到該過程則產生了對新的行為協議的需求,特別是在語音溝通過程中沒有另一方持續視覺線索的時候更為重要。對于早期的用戶,第一次電話通話是極不順暢的;而且即使在今天,雙向無線電臺的斷續通話方式也要求新用戶進行一些調整。在這兩種情況下,很快就發展出來一些常用的方法來實現相當自然的溝通方式,主要是因為通話的另一方也是人類。隨著移動用戶面臨新的語音識別界面,他們將面臨與使用那些很老的通信手段時所出現的類似挑戰。
一個更近期的例子是,觸摸屏革命展示出了它們如果能實現高品質同時具有可為用戶體驗帶來附件價值的功能時,新的、陌生的、棘手的界面如何切入到主流應用并且受到歡迎。
因此值得去在一個比傳統案例更為廣泛的意義上去定義語音控制的“性能”。因而能夠在考慮到下一代瓶頸時,設計出更多不會過時的解決方案。
構建一種高性能的語音識別解決方案
過去一直用非常簡單的性能指標來評估語音識別解決方案。這些指標通常被換算為單獨的“精度”或者“命中率”數值,從根本上來表述正確識別字和詞組的概率。在定義“性能”時,需要一種更廣泛的和深思熟慮的方式,它能夠反映語音界面的長期發展潛力,以便向用戶提供像觸屏界面一樣的舒適性和可用性等級。
翻譯質量扮演了一個關鍵的角色,從根本上講它是一種人工智能,遠不止基本的字詞識別。訪問所有設備功能也使語音識別成為了觸摸屏的一種切實可行的替代方案,有趣的是這也使該技術可用于一個更大范圍的設備種類,包括像可穿戴技術這樣更小的設備。低響應延遲以及一種自然的、“無協議的”的交互方式,以及即使在有噪音環境中也能很好地運行,也改善了體驗。這要求精心的系統設計,以使設備級的信號處理技術能夠與基于云計算的智能很好地結合,以將這些性能增強帶給用戶。
去除按鍵
語音識別目前最大的人體工程學局限性是需要進行按鍵或者其它機械性啟動,從而限制了它在許多環境中的可用性。這種機械觸發是功耗這一制約因素的終極結果。為了保持具有競爭力的電池壽命數值,移動設備中待機功耗的預算都極低,典型的電池電流值為單位數毫安。當功率預算這么低的時候,連續地運行語音識別(或者至少隨意的語音識別)是不可行的。
到目前為止,一個按鍵觸發器為這個問題提供了一種粗放的解決方案,它通過在按下按鍵之前禁用語音識別,使功率消耗平均值降到最低。但是,現今的語音觸發功能作為一種特性正在被加載到最新的高端音頻中樞(AudioHubs)上,因為OEM廠商希望語音識別功能能夠更靈活、更易于使用。通過顯著地降低語音識別的平均功耗數值,甚至降到待機模式預算范圍內這樣的水平,允許主處理器“休眠”。這種功耗降低(通常為一個數量級)是如此的顯著,以至于可以完全消除對按鍵的需要。
語音觸發器架構的選擇
一次語音觸發是一個簡短的關鍵字或者詞(例如“你好!祈飛”),它能夠使設備被喚醒并且響應后面輸入的語音。圖1所示即為這種半自主的低功耗的“永遠工作”的處理域,它為這種語音觸發提供了一個平臺。
圖1:使用了一個音頻中樞的永遠工作的語音觸發
音頻中樞為語音觸發功能提供了一個自然的中心,它帶有通往所有內部功能和耳機麥克風端口的接口,并且在待機模式下通常也在運行,這是因為需要處理像附件接口監控其它原因。這個降低了系統中諸如時鐘發生器和電壓參考等常用基礎功能的重復率,降低了靜態功耗。音頻中樞里針對語音喚醒的硬件優化使信號處理周期針對不同環境的噪聲情況將被保持在絕對的最低值,將平均電池電流最小化。
可相互替代的架構分成兩類:分離式解決方案和基于系統級芯片(SoC)語音的觸發。其功率消耗情況和用戶交互方式在很大程度上依賴于對這些架構的選擇。軟件架構,尤其是管理應用場景轉換和串行端口配置的軟件,也在確定交流方式中扮演著一個重要的角色。
基于系統級芯片(SoC)的語音觸發器(如圖2)往往因為主要的中央處理單元持續活躍而引起的非常高的靜態功耗開銷。這些解決方案的電池電流消耗通常比那些基于音頻中樞的解決方案高出一個數量級。
圖2:基于SoC的語音觸發模式
分離式解決方案(如圖3)通常使用來自主音頻通道的不同的硬件接口。這有時可以導致音頻不持續,原因在于應用場景轉換管理和噪音抑制的啟用/禁用等在不同的集成電路間,因為延遲和信號格式不同等因素而變得復雜。這些不連續有時會引起通話被中斷,尤其是在轉換到工作模式運行發生時,從而導致了對可聽見提示的需要并限制了交流方式。在一些情況,因為連接到有限數量的麥克風也能限制其使用性(例如耳機麥克風的操作)。
圖3:分離式語音觸發解決方案
確保更好的用戶體驗
由于所有技術創新都是從根本上改變用戶與消費電子設備交互的方式,衡量成功的真正標準是用戶對他們所期望的改變的回應。參考觸摸屏案例,新的語音控制技術的最終目標是它們應該成為下一代移動硬件可接受的和所預期的一項功能。我們將可能非??炀蛯W會如何與新一代能夠響應語音的機器進行交互,其方式與我們在觸摸屏中開發出來的直觀熟悉性大致相同,直到像觸摸功能已經成為進入市場的新設備的一個標準功能這樣的程度。
盡管如此,不同于較早的在遠端也是人類的語音通信技術,仍然不確定的是用戶在熟悉技術的行為特性后,是否將受益于與其設備進行了有用的或有趣的溝通。這在很大程度上取決于該技術的性能,但是今天用來衡量語音識別性能的標準仍然很粗放,并且不足以用來描述未來代系語音識別系統的有效性??紤]到更高級別的機器智能化、與系統其余部分的交互,以及與云計算的交互,還需要一種更廣泛的方式。一種不會限制或者延遲下一代改善的音頻架構,能夠使這些性能跨越更加迅速地發生,很大程度上將不受硬件和低級別固件的限制?,F在已經可以使用這種技術去構建移動設備。
低功耗音頻中樞待機模式音頻處理能力已經突破了語音識別可用性中一些最關鍵的瓶頸。雖然去除按鍵是一個重要的里程碑,但這只是可用于今天移動平臺設計的許多語音識別提升中的一項。但在集成階段選擇了合適的架構,就可以支持一種完全自然的溝通風格,它極大地改變我們在未來幾年使用移動設備的方式。
(來源: SmartTimes)