人工智能產業鏈由基礎層、技術層與應用層構成。同樣,智能語音識別亦由這三層組成,本文從語音識別的商業化應用出發,并探討驅動語音識別發展的算法及硬件計算能力,三位一體淺析語音識別現狀、發展趨勢及仍然面臨的難點。
基礎層的核心處理芯片是支持海量訓練數據、復雜的深度網絡建模方式以及實時推斷的關鍵要素。語音識別包括訓練與識別(給定訓練好的模型,對輸入語音進行識別)兩部分。
在訓練階段,由于數據量及計算量巨大,傳統的CPU或者單一處理器幾乎無法單獨地完成一個模型訓練過程(初始階段,谷歌大腦語音識別項目是基于16000個CPU,用了75天,完成一個有156M參數的深度神經網絡模型訓練工作)。原因在于CPU芯片架構中只有少量的邏輯運算單元,且指令執行是一條接一條的串行過程,其算力不足。研發具有高計算能力的芯片成為語音識別乃至整個人工智能硬件的發展趨勢。
與CPU不同的是,GPU具有大量的計算單元,因而特別適合大規模并行計算。另外,FPGA、TPU、ASIC這些延續傳統架構的芯片亦在大規模并行計算中得到廣泛的應用。需要注意的是,從本質上講,這些芯片都是計算性能與靈活性/通用性trade-off的結果,即,如圖3所示。CPU,GPU是通用處理器,DSP歸為ASP,TPU是ASIC這一類,FPGA則是一種Configurable Hardware。

圖3.來源:RIT的Shaaban教授的計算機體系結構課程
另外,基于實時性、低功耗、高計算力的需求,使用專屬語音識別AI芯片處理識別階段大量的矩陣運算,進行運算加速是今后終端語音識別芯片市場的主流方向。
1、云端場景
由于計算量、訓練數據量極大,且需要大量的并行運算,目前語音識別的模型訓練部分基本都放在云端進行。在云端訓練中,英偉達的GPU占主導市場,多GPU并行架構是終端訓練常用的基礎架構方案。另外,Google在自己的人工智能生態中,使用TPU做訓練與識別。
目前階段,語音識別公司的識別部分也大多放在云端,比如Google home、亞馬遜Echo,國內的科大訊飛、云知聲等。在云端識別中,雖然也有使用GPU,但是GPU并不是最優方案,更多的是利用CPU、GPU、FPGA各自優勢,采用異構計算方案(CPU+GPU+FPGA/ASIC)。
2、終端場景
在智能家居等行業應用中,對實時性、穩定性及隱私性有極高的要求。出于對云端數據處理能力、網絡延遲及數據安全性的考慮,把計算下放到終端硬件中的邊緣計算得到了快速的發展。終端離線的語音識別即是一種基于邊緣計算的邊緣智能,我們認為離線與在線是語音識別共存的發展路線。在終端離線識別中,需要把訓練好的模型存儲到芯片。給定語音輸入時,引擎會調用模型,完成識別。終端語音識別兩個關鍵因素是實時性與成本,其中實時性影響用戶體驗,成本影響語音識別應用范圍。
由于深度神經網絡在語音識別中取得明顯的性能優勢,其是目前主流的語音識別建模方式。但是神經網絡的模型參數量一般非常大,且識別過程中有大量的矩陣計算,常用的DSP或者CPU處理該問題時需要大量的時間,從而無法滿足語音識別的實時性需求。GPU、FPGA的價格又是阻礙其在終端語音識別中大規模應用的主要障礙。考慮到終端應用中,場景相對比較固定,且需要很高的計算性能,研發語音識別專屬芯片是終端語音識別硬件發展趨勢。
- 啟英泰倫(ChipIntelli):2015年11月在成都成立。2016年6月推出了全球首款基于人工智能的語音識別芯片CI1006,該芯片集成了神經網絡加速硬件,可實現單芯片、本地離線、大詞匯量識別,且識別率明顯高于傳統終端語音識別方案。另外,啟英泰倫能夠提供廉價的單麥遠場語音識別模組,其實際識別效果能夠媲美使用了科勝訊降噪模塊的雙麥模組,大幅度降低遠場語音識別模組成本。啟英泰倫在終端語音識別專用芯片發展上取得了明顯的技術及先發優勢。
- MIT項目:MIT黑科技,即,MIT在ISSCC2017上發表的paper里的芯片,該芯片能夠支持DNN運算架構,進行高性能的數據并行計算,可以實現單芯片離線識別上千單詞。
- 云知聲:云知聲致力于打造“云端芯”語音生態服務系統,其剛獲取3億人民幣的投資,將把部分資金投入到終端語音識別芯片“UniOne”的研發中,據報道,該芯片將會內置DNN處理單元,兼容多麥克風陣列。
過去幾十年,尤其是最近幾年,語音識別技術不斷取得突破。但是,在大多數場景下,語音識別遠沒有達到完美。解決遠場復雜環境下的語音識別問題仍然是當前研究熱點。另外,通常情況下,語音識別都是針對特定的任務,訓練專用的模型,因而,模型的可移植性比較差。
人類在對話過程中,可以很高效的利用先驗知識,但是目前的語音識別系統都還無法有效利用先驗知識。因此,語音識別還有很多問題待解決。令人興奮的是,隨著高質量數據的不斷積累、技術的不斷突破及硬件平臺算力的提升,語音識別正在向我們期待的方向快速發展。




