TaoAudio: 淘寶直播短影片音訊解決方案

語言: CN / TW / HK

背景介紹

2019年是電商直播爆發的一年,被稱為電商直播元年,2020年電商直播持續發展,越來越多的平臺開始發力直播帶貨業務。 淘寶直播作為電商直播第一平臺,成為連線上億主播和粉絲的橋樑

直播傳遞資訊的途徑,不外乎聲音和畫面兩種。其中聲音作為“第一媒介”,需求主要包含以下兩個部分:第一是音質,好的音質能讓人產生“聲臨其境”的感覺,而聲音刺耳,斷續,音量過大或過小,都會讓人聽起來不舒服,從而影響購物體驗;第二是互動體驗,視覺互動已廣為人們熟悉,但聲音互動其實更加自然,比如主播通過語音控制發紅包,上貨,粉絲通過語音訊息與主播互動,或通過語音連麥與主播溝通;除此以外,語音在安全管控方面也顯得尤為重要,在防盜播,涉黃涉政方面,都可通過語音來識別異常。

在短影片上,聲音的需求也越來越多。 隨著2020年底點淘,逛逛等新業務的推出,短影片成為內容業務發展的新引擎,為了幫助商家達人更加便捷的生產高質量內容,“親拍”APP隨即推出,大幅提高編輯效率,成為淘系商家,達人生產優秀短影片的有力工具。 與此同時,“親拍”APP的深度編輯功能還提出了大量音訊需求,比如變速,混音,快速播放,語音降噪,自動字幕,語音旁白等等。

音訊業務解決方案TaoAudio

TaoAudio是面向直播和短影片聲音需求的完整解決方案。 其分成三個主要模組, 分別是音訊處理,音訊安全,語音互動。 TaoAudio支援端雲一體化部署,部分模組部署在端側,比如音訊編解碼、降噪、場景檢測、水印等,可充分利用端上算力,以低成本方式實現實時處理,另一部分模組部署在雲上,比如語音識別,語音合成,確保演算法的精度和效果。 同時,TaoAudio還具備友好的部署方式,通過JNI和Object-C實現跨平臺呼叫,上層只需配置模板和送入音訊資料,即可源源不斷的拿到處理後的聲音或標籤,實現極低成本的接入。

直播短影片音訊技術架構

   直播業務

直播業務對音訊的的三個核心需求是實時,安全,互動。 面對眾多的音訊需求,如果只是提供演算法原子能力給業務層呼叫,整合和聯調成本會非常高,並且業務層不可避免會碰到一些音訊專業相關問題,解決難度大,TaoAudio抽象了需求共性,實現了對實時音訊流的檢測和處理,如下圖所示,在直播場景中TaoAudio起到連線上層業務和推流底層的作用,讓業務音訊需求和底層推流解耦合,業務音訊相關的需求和問題全部收口到TaoAuido裡面,這對提升音訊類需求實現效率和加快迭代優化速度有非常大的幫助。

  • NUI SDK

NUI SDK提供了智慧語音互動能力,包括:語音合成、語音識別和關鍵詞檢測等功能。

  • 音訊檢測

音訊檢測模組實現了直播聲學場景和聲學事件檢測功能,具體演算法包括:人聲檢測、噪聲檢測、音樂場景檢測、性別識別等,整體演算法思想基於深度學習和訊號處理相結合進行。

  • 音訊處理

音訊處理模組包括聲音自適應混音、語音重取樣、語音變調變速,音效處理、語音降噪等。其中較為核心的是自研的智慧降噪Alidenoise和音效處理Soundmod SDK,能夠很好的滿足上述需求。

   短影片業務

在非實時通訊業務中,由於不存在實時音訊採集和回聲消除等場景,TaoAudio可以以一種更加單純的形式存在,這種形式我們叫做智慧數字音訊工作站(intelligent digital audio workstation,以下簡稱iDAW)。 如下圖所示,在iDAW裡面,我們可以有多個 音軌 (track),每個音軌的 源頭 (source)可以是一個 音訊片段 (audio clip),一個 音訊流 (audio stream),或者一個 符號序列 (symbol sequence)。 每個track的結構如下圖:

其中,黃色代表輸入,綠色代表輸出,虛線表示可有可無。每個track裡面有三種圍繞audio的變換。

  1. 一種是“符號-音訊”的變換,可以理解成是audio generator,輸入符號序列,輸出音訊,例如TTS便屬於這種變換;

  2. 第二種是“音訊-符號”的變換,可以理解成是audio analyzer,輸入音訊,輸出符號序列,例如VAD、ASR便屬於這種變換;

  3. 第三種是“音訊-音訊”的變換,可以理解成是audio processor,輸入音訊,輸出音訊,例如上述soundmod裡面的所有變換,以及3A裡面的ANS、AGC等。

每個track可以通過重取樣,進行混音,輸出混音後的音訊,如下圖:

在TaoAudio裡面,一個iDAW對應一個TaoAudioWorker(TAW)例項。整個TaoAudio的基礎架構是用C++實現,目前支援的audio generator有NUI SDK裡面的語音合成,audio analyzer有NUI SDK裡面的語音識別、喚醒詞識別和檔案極速轉寫,還有我們整個音訊檢測系統,audio processor有soundmod和alidenoise等。

TaoAudio把恰當的的連線能力和處理能力提供給呼叫者,不同的業務方能各取所需,通過TaoAudio定製出自己的整個音訊工作鏈路。例如在短影片生產工具中,利用TaoAudio可以做到無縫的對接幾乎所有音訊相關的業務,比如自動生成旁白(TTS)、字幕提取(ASR)、自動去除空白(VAD)、原聲增強(soundmod)、變速變調(soundmod)、降噪(alidenoise)、聲音美化(soundmod)、背景音樂生成(chord-arranger)等等,每一個功能都可以以track為單位進行新增和連線。

TaoAudio音訊核心技術

TaoAudio作為一套音訊業務解決方案,底層核心技術主要涉及兩塊: 一塊是音訊處理技術,另一塊是語音互動技術。 其中,音訊處理包括: 智慧語音降噪、智慧聲學場景檢測、音效處理、回聲消除,以及音訊指紋和音訊水印技術等; 語音互動技術主要包括: 語音識別、喚醒、語音合成、敏感詞識別等;

   音訊處理技術

  • 智慧語音降噪

傳統語音降噪演算法速度較快,計算消耗較低,能在多種多樣的低端裝置上執行,但面對複雜且多變的非平穩噪聲和低信噪比環境,傳統方法的效果不盡如人意。基於學習的、資料驅動的降噪演算法,通過對大量資料的學習,在真實的噪聲環境中展現出了較為突出的優勢,取得了較好的效果。

但是這類“基於學習的”方法,由於引數多、模型大,較為複雜,因此可解釋性欠佳,穩定性不易受控,泛化能力不易保障,缺陷不易排查。這些問題的存在,導致基於學習的方法常被稱為“無法觀察”且“不易調整”的“黑箱”。同時,基於學習的演算法雖聽感效果出眾,但相比傳統演算法,複雜度偏高,運算速度較低、電量消耗較多,更容易導致硬體發熱、系統降頻、程式卡頓等問題。

為將最好的音訊體驗帶給使用者,淘系技術音影片演算法團隊基於深度學習和訊號處理相結合的思路,在反覆的研發、試錯、創新中,針對降噪的效果、質量、演算法的速度、能耗、延遲與泛化的穩定性等諸多方面,應用了一系列技術,對模型結構、框架、約束等進行了研發改進,最終研發了智慧語音降噪演算法Alidenoise。  

 

  • Alidenoise技術特性

1)傳統訊號處理方法與深度學習類方法相結合,兼具可處理非平穩類噪聲和演算法複雜度低的特點

2)在神經網路的設計上,結合訓練目標,以人聲的語譜紋路作為主要學習物件,噪聲泛化性強語音保真度高

3)採用Cache buffer技術,實現流式處理

4)輕量小模型, 支援移動端實時增強,覆蓋低、中、高裝置

5)靈活的網路模型配置,支援降噪演算法延時可調

  • 智慧聲學場景檢測

淘寶直播、短影片的多媒體需求日益增長,在基礎通訊鏈路與上層業務需求中,聲音與音訊需求層出不窮。

需求的增長與基礎技術的發展成為了主要矛盾。因此我們提出多工的智慧聲學場景檢測專案,並逐步實現。

1)訊號處理:為了提升聲學場景檢測的泛化性,我們對音訊進行聲學訊號處理的特徵提取,比如fft頻域、mfcc、lpc係數、基音週期等經典有效的特徵,來表徵聲音訊號,同時也對聲音向量有效降維。

2)端側AI:端上輕量化模型,是聲學場景檢測的主要關鍵之處,我們借鑑了經典的MobileNet、ShuffleNet中輕量化模型技巧,採用矩陣分解、分組卷積、小卷積核等卷積優化,全域性池化替代繁重的全連線,同時嘗試空洞卷積對於模型輕量化的優勢。為了在端側取得更高的適配能力,模型使用了量子化來進一步降低算耗,並使用短時記憶單元提高上文資訊量,在提速的同時保障演算法效果。

3)多工聯動:在聲學場景自適應的多工中,我們共享卷積特徵權重,有效增加任務的泛化性。同時在相關任務設定一級分類與二級分類關聯設計,不斷的有效提升二級分類的準確度,比如是否人聲檢測為一級分類、性別檢測是二級分類,兩者聯動可以讓性別檢測更加準確。

4)能力迭代擴容:隨著場景檢測演算法與上層玩法之間的相互促進與豐富,檢測類目的需求會動態地、甚至敏捷地變遷。為了在此業務場景下保證檢測能力與需求俱進,我們將藉助遷移學習與增量學習技術,敏捷升級識別能力,快速反應逐步擴充的檢測需求。

5)業務承載:多工的智慧聲學場景檢測,承載著兩大類業務。第一類淘寶直播通訊場景的自適應增強業務,比如檢測不同的嘈雜程度、是否音樂來進行配置不同的演算法引數,利用不同性別年齡檢測來配置不同的美聲需求。第二類是業務需求,比如輕直播的人聲檢測需求,空鏡檢測的人聲檢測需求,音樂視覺化的音樂檢測需求等。

  • 音效處理

我們有一套完整的從音訊到音訊的變換工具Soundmod SDK,它支援對音訊進行實時的和離線的處理,Soundmod支援的處理包括了最常用的“三大件處理”(動態壓縮、均衡、混響)、變速不變調、變調不變速、男變女女變男,也包括了其他常用的效果,比如合唱效果、顫音效果、延時效果、哇音效果、聲碼器效果等等:

  • phaser vocoder類音效:time-stretching、pitch-shifting、vocoder、robotic、whispering

  • delay類效果:delay、chorus、flanger、vibrato

  • dynamics類效果:compressor、limiter

  • filter類效果:equalizer、autowah、phaser

  • modulation類效果:ring-modulation、tremolo

  • spatial類效果:reverb

下面是一個音效處理Demo影片:

   智慧語音互動技術NUI

  • NUI SDK(Natural User Interaction)是阿里巴巴達摩院語音實驗室全自主研發的語音全鏈路方案。

  • 方案聚合端和雲的核心演算法能力,包括訊號處理,語音喚醒,語音識別,自然語言理解,語音合成,聲紋識別等,具備完整端雲一體語音能力。

  • 方案通過能力可插拔組合的方式,實現一套SDK滿足不同產品的語音需求。

  • 方案支援iOS/Android作業系統,集團內外累計啟用裝置3.7億+。

淘寶直播場景作為豐富的語音技術使用場景,在應用記憶體在多種對語音能力的使用。例如“CRO敏感詞檢測”使用了“離線命令詞識別”,“評論播報”使用了“線上語音合成”,“直播看點”使用了“線上語音識別”,以及後續還可能上線的其他功能會有更多能力的擴充套件。這就要求我們的SDK具備多例項並行的能力,能夠使得不同調用業務之間可以並行不受影響。因此在本次淘寶直播和達摩院的共建中,語音實驗室完成了NUI SDK的全面升級,將原有的面對互動場景的SDK擴充套件為更加靈活,可支援多種原子場景獨立使用的版本。

直播場景是演算法技術使用非常密集的場景,訊號處理,RTC,敏感詞檢測,視覺演算法等等都在這個場景下全速執行,這意味著對於CPU的消耗非常大,同時App對包大小有著嚴格要求。語音實驗室全面升級命令詞檢測技術方案,採用MNN推理框架,並同MNN進行了深度優化,在實時率上提升明顯。通過“PAI模型壓縮”技術將喚醒模型量化到INT8計算,進一步減少模型大小,相對對上一代方案減小50%。再者通過直播端側的模型下發鏈路,能夠將模型進行雲化,進一步減小App包大小。

應用案例

   直播評論和提示音播報

語音播報功能給主播提供的是直播間使用者意圖的聲音提醒能力,該功能是通過語音,將粉絲進入直播間、粉絲評論和粉絲連麥申請等行為在主播手機中播報出來,目的是提醒主播當前直播間的實時動態,做好接待客戶的準備。語音播報功能直接涉及到的語音技術點,主要包括:文字轉語音TTS、語音混音、訊號重取樣以及語音資料流管理和控制等。

除此之外,播報聲音要在一邊推流的情況下一邊播報,所以還涉及到播報聲回聲消除,防止播報的聲音被粉絲聽到。另外,語音播報具體實現在業務上層,回聲消除是音訊底層技術,如何協調好兩者之前的關係,相互配合好達到好的效果體驗,具有一定的挑戰性。

TTS是語音評論播報的基礎,評論在主播端播報之後會被推流的麥克風採集,如果不進行處理會導致直播間所有粉絲都聽到播報聲。消除本地播報的聲音,可以使用回聲消除技術,ARTC底層有回聲消除演算法,但是不支援本地播放消除,經過對ARTC層系統的改造,實現了播報聲消除的功能。

但是,當主播講話時進行播報,會形成回聲消除“Double Talk”抑制過大問題,導致主播聲音損傷嚴重。為了解決該問題,從兩個角度出發,一個是播報時優化回聲消除演算法,另外一個通過主播說話智慧檢測控制播報聲音減小或者不播報。最終通過演算法優化,解決了播報消除導致主播語音損傷的問題,使評論語音播報功能體驗更佳。

   短影片智慧編輯

在短影片領域,口播類的短影片在商品介紹的短影片裡面佔了絕大多數。 口播編輯能讓短影片生產者很輕鬆的剪掉不必要的長停頓,多餘的字句,以及字與字時間的瑣碎的停頓。 這個功能的核心技術是語音識別和字幕轉寫對齊的服務,如下圖所示:

一段長音訊通過在端上的分片分成以1分鐘為單位的音訊切割檔案(segment),傳輸到服務端,服務端拿到檔案之後先進行一次極速檔案轉寫(transcription),這個轉寫的過程需要與NUI服務進行互動,拿到結果轉寫結果之後,把結果和原音訊一起送到強對齊演算法(forced alignment),輸出帶時間戳的逐字轉寫結果(aligned transcription)。使用了該功能之後,能讓這一類口播影片的生產達效率大幅提升。

   短影片語音降噪

在口播的短影片裡面,人聲是前景聲,其他聲音一般都是背景聲。背景聲有時是有用的聲音,比如背景音樂,或者和講解場景或物品相關的關鍵性聲音;有時是無用的聲音,比如商場內的嘈雜聲音,或者馬路上的噪音。業務上通常有一種需求是去除無用的背景聲音,以讓前景聲音變得更加突出,讓短影片裡面所呈現的資訊更加清晰。淘寶音影片演算法團隊自研的智慧降噪演算法Alidenoise已經整合到TaoAaudio中,經過和競品降噪能力對比表明Alidenoise降噪效果優於競品,且處理的實時率能達到1%,目前智慧降噪能力已經輸出給短影片編輯業務使用。

下面展示一組對比音訊:

原始音訊:

競品降噪:

Alidenoise降噪:

   直播看點ASR和推薦

為了提升直播時寶貝轉化的效率,優化使用者觀看直播時的購物體驗,淘寶直播向所有商家主播、達人主播,提供了“直播看點”的功能。直播看點有兩種形式,一種是主播手動打點,另外一種是智慧打點。智慧打點主要根據直播影片中的目標識別進行自動打點,主播口播為智慧看點提供了另外一個維度的資訊,使用語音識別技術把口播語音全部轉成文字資訊,再使用語義理解技術提取主播所介紹的商品資訊。

直播看點ASR完整的功能實現涉及到語音識別、訊號重取樣、語音降噪等技術,其中語音降噪的選擇對識別的準確性有較大的影響。除了把聲音內容作為打點的特徵,還可以從聲音型別的角度出發,檢測當前主播是否在說話、直播間是否有音樂,或者處於哪種聲學環境,把聲音作為一個維度資訊進行直播間的推薦。當前TaoAudio已經具備上述技術能力,能夠快速輔助業務實現對應的功能。

   播語音評論

評論區作為直播間的核心互動功能,可以通過評論提升直播間互動率和使用者直播間停留時長。直播評論如果只有文字的話,形態比較單一,語音評論可以讓粉絲在觀看直播的時候用語音進行評論,使粉絲和主播的互動更加有趣。

語音評論技術鏈比較長,涉及到客戶端語音採集、編解碼、播放、語音識別轉文字和服務端語音儲存、內容稽核,在主播端,主播播放出語音評論,還涉及到聲音的控制和回聲消除演算法。語音評論鏈路上所涉及到音訊相關的需求,TaoAudio均能很好的滿足。

   短影片旁白生成和音效處理

短影片裡面需要有旁白,這些旁白可以是機器生成的人聲,或者真實錄制的人聲。很多時候使用者不希望自己的真實聲音出現在短影片中,便會選擇生成的聲音作為旁白,或者對自己錄製的聲音進行各種音效處理以隱藏自己的真實聲音。

在淘系的短影片製作工具MAI編輯器和親拍APP中均都接入了TaoAudio的文字轉語音的功能,這些功能可以很方便的生成不同音色、不同語速、不同語調的人聲。在有人聲的基礎上,使用者可以很自由的對人聲進行各種變換,包括變速、變調、變聲、美聲等等,這些技術均可通過TaoAudio內整合的Soundmod實現。

總結&展望

總的來說,當前TaoAudio作為內容平臺的音訊解決方法,支援了多種音訊相關的業務需求,從剛開始遇到的各種問題,到現在問題逐步的收斂,SDK的功能越來越穩健。淘系技術音影片團隊會繼續豐富演算法能力,比如AI結合的語音增強、智慧音訊檢測、短影片自動配樂,音樂理解和生成,同時達摩院語音技術團隊在不斷優化升級語音互動效能,例如和MNN共建的端上喚醒技術、離線語音識別等也都相繼要上線來滿足直播業務的需求。

未來,TaoAudio將基於現有的功能繼續打磨,保證穩定性的同時進一步提升體驗,並且將朝以下幾個方向繼續發展:

1)演算法能力擴充套件:豐富直播互動音訊類演算法,從音訊層面支援更多業務玩法和功能需求

2)端側AI:結合傳統訊號處理和AI,提升演算法效果,基於MNN框架提升演算法效率,實現大部分音訊AI演算法端上部署,比如端上ASR技術,智慧VAD技術,智慧PLC技術等;

3)雲端一體:端雲相互配合,實現雲端部署複雜演算法和功能的能力

歡迎業內專家朋友們前來交流:[email protected]

✿    拓展閱讀

作者 | 莊恕,蟲娃,屠零,遠至

編輯| 橙子君

出品| 阿里巴巴新零售淘系技術

分享到: