Google Duo 正在測試一種新的編解碼器,提供更好的通話質量
Lyra是新的編解碼器,正在正在接受數70多種語言、數千小時音頻的培訓
最近更新時間 2021-03-02 14:55:57
世界可能正在為5G做準備,但實際上,絕大多數人仍在以緩慢的數據速度和較差的連接性來應對。為了解決這個問題,Google Duo正在使用壓縮技術來幫助通過不良/雜亂的連接提供最佳的音頻和視頻體驗。
Google正在測試一種新的音頻編解碼器,該編解碼器可通過不良的網絡連接顯著提高音頻質量。 Google AI小組在詳細的博客文章中介紹了一種低比特率的語音編解碼器“ Lyra”。 Lyra的基本架構涉及“以對數梅爾頻譜圖的形式提取獨特的語音屬性(特徵)”。然後將它們壓縮並通過網絡傳輸,然後使用生成模型在另一端重新創建。
到目前為止,這也是傳統的參數編解碼器所做的。但是,Lyra使用了一種新的高質量音頻生成模型,該模型可以從語音中提取關鍵參數,並且還可以使用最少的數據量來重建語音。
Lyra中使用的新的生成模型基於Google在WaveNetEQ上的較早工作,WaveNetEQ是目前在Google Duo上使用的“基於生成模型的丟包隱藏系統”。
谷歌解釋說,這種方法使Lyra“與許多流媒體和通信平臺中使用的最新波形編解碼器相提並論”。正如Google所說,Lyra與其他編解碼器相比的好處在於,Lyra不會逐個樣本地發送信號,因為信號需要更高的比特率,因此需要更多的數據。
Lyra使用“低價循環生成模型”,該模型以較低的速率工作,但會並行生成不同頻率的多個信號,這些信號隨後組合為“所需採樣率的單個輸出信號”。
在中檔設備上運行這樣的生成模型“可產生90ms的處理延遲”,Google表示這與其他傳統語音編解碼器是一致的。
谷歌還補充說,Lyra可以以非常低的比特率勝過Speex,MELP和AMR等編解碼器,還可以勝過Opus等免版稅的開源編解碼器。
谷歌說,Lyra正在接受培訓,“使用開源音頻庫,用70多種語言的演講者提供數千小時的音頻,然後通過專家和眾包聽眾來驗證音頻質量”。而且新的編解碼器已經在Google Duo上推出。 Lyra目前用於語音用例,但Google也在探索如何將其用作通用音頻編解碼器。