This post is also available in the following languages. Japanese, English, Korean

如何衡量 LINE App 降噪技術的效能

之前，在如何在 LINE App 中測量語音品質一文中，我們介紹了 LINE App 如何回應聲學環境、網路環境和全局環境的變化。我們特別詳細討論如何測量與如何回應聲學環境相關的 AEC（聲學迴聲消除）性能。在本文中，我們將介紹一種測量噪音抑制（NS）技術性能的方法，噪音抑制技術是聲音環境響應的關鍵要素之一。

NS 技術簡介-什麼是 NS？

聲音在空氣中以振動波的形式傳播，麥克風是將這些聲波轉換為數位訊號的設備。但是，由於麥克風可以擷取環境中的所有聲音，因此它不僅可以擷取您的聲音，還可以擷取背景噪音。結果，麥克風擷取的訊號與用戶的聲音和環境噪音混合在一起，這會降低通話品質。

NS 是一種消除環境中噪音的技術，可為使用者提供更清晰、更高品質的語音通話。事實上，要創造一個完全安靜、沒有噪音的環境是不可能的，所以噪音問題必須通過 NS 技術來解決。NS 技術説明用戶在各種環境下進行清晰的語音通話，這是 LINE App 用戶體驗的關鍵要素之一。

LINE採用自己的技術開發NS，並使用 ML（Machine Learning）技術提供高品質的降噪效能。這使用戶能夠享受清晰、高品質的語音通話，同時將環境噪音引起的不適降至最低。

如何衡量 NS 效能

定量評估是客觀衡量和評估 NS 技術效能的重要途徑。定量評估可協助您可靠地了解技術的降噪功能，以便您可以持續改善使用者的通話體驗。

評估 NS 技術效能時最重要的兩個因素是保持聲音品質和測量噪音消除能力。這意味著評估該技術在降低背景噪音的同時保留所需聲音（例如使用者的聲音）的效果如何。

LINE 持續努力透過量化評估來有效管理 NS 功能，為客戶提供最佳的通話體驗。 NS 技術的效能測量如下進行。

建立績效衡量方法
資料集選擇
準備測試資料集
NS 績效評估指標的選取
配置測量系統環境
NS 性能測量

讓我們按順序一一過一遍每個過程。

建立績效衡量方法

衡量 NS 績效的方法如下：

確保再現性和一致性

使用標準化評估工具在可重複的環境中衡量績效。此外，我們使用相同的資料集在本地環境中進行測試，以盡量減少網路影響。這使您能夠在相同條件下獲得一致的結果，並準確識別 NS 技術性能的變化或改進。

可靠的評估指標

利用國際公認的評估標準，產生業界和學術界廣泛認可的可靠績效指標。這樣，透過計算語音清晰度和噪音去除效果的指標，可以確保對 NS 技術性能的信任，可以定量比較產品性能，並確定發展方向。

檢查各種嘈雜環境下的性能

為了定量確認 NS 技術在各種環境下的效能，效能檢測如下。

大型語音資料集：我們使用包含考慮性別、年齡等的大量語音樣本的語音資料集。
各種類型的噪音：我們使用包含來自各種環境（例如咖啡館、道路和辦公室）的噪音的噪音資料集。
合成比例調整：為了增加NS技術的穩定性，我們測試了原始語音和噪音的不同比例組合。

透過這種方法，LINE 驗證了 NS 技術在各種環境中的工作效率，並努力為使用者提供最佳的語音通話體驗。

資料集選擇

我們的目標是評估 NS 技術在人類可以聽到的所有可聽頻段的表現。為此，請選擇 48 kHz 的高解析度聲源作為資料集。聲源取樣率為48 kHz，可全面捕捉人類聽覺頻率範圍約20 Hz至20 kHz的聲音，因此可精確評估 NS 技術在不同頻率下的表現。

此外，選擇由18個不同場景組成的資料作為雜訊資料集。每個場景都是在不同的位置錄製的，這對於評估 NS 技術如何根據使用者的位置和環境表現不同非常重要。由於使用者的現實環境差異很大，我們使用在各種場景和位置記錄的資料來驗證在這些不同的環境中是否可以有效地去除雜訊。

最後，需要足夠數量的聲源資料才能得出可靠的評估結果。需要包含各種聲源才能獲得統計上顯著的結果，這使您能夠驗證 NS 技術的一致性能並識別特定條件下的異常或效能下降。

考慮到這些因素，我們選擇了高解析度的 48kHz 聲音來源和包含在各種環境下錄製的 18 個場景的雜訊資料集。

Group A：語音資料集

對於語音資料集，我們使用來自韓國情報資訊社會機構 AI 綜合平台的多語言口譯和翻譯字體資料的英語資料。

原始來源：https://aihub.or.kr/aihubdata/data/view.do? currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71524
聲音來源路徑：使用‘驗證-來源資料-VS_en_1’（共17,981）
形式
- 取樣率：48kHz

Group B: 雜訊資料集

使用需求資料集作為雜訊資料集。

原始來源：https://zenodo.org/records/1227121
噪音類型
- 共有18個場景
- 每個場景16個通道（從不同地點同時錄製）
形式
- 取樣率：48kHz
- 片長：5 分鐘

下表顯示了需求資料集中包含的雜訊場景。共有六大類，每一大類又包含三個場景。

分類	場景	解釋
住宅	Washing	洗衣房配有正在運作的洗衣機
	Kitchen	廚房準備食物
	Living	客廳正在播放歌曲
自然	Field	體育場
	River	流水的溪流
	Park	公園裡有很多遊客
事務	Office	三個人使用電腦的辦公室
	Hallway	辦公大樓走廊有人經過
	Meeting	會議室討論中
民眾	Station	捷運區
	Cafeteria	繁忙的辦公室食堂
	Restaurant	午餐時間大學食堂
距離	Traffic	繁忙的交通路口
	P Square	廣場上有很多遊客
	Cafe	公共廣場的自助餐廳
交通	Metro	捷運
	Bus	公車
	Car	私人汽車

準備測試資料集

測試數據集是通過混合語音數據和噪音數據來創建的，以達到預定的信噪比（SNR: signal-to-noise ratio）和混合信號的水平。

利用這樣準備好的資料集，可以精確評估NS技術在各種雜訊環境下的效能，客觀評估其在實際使用環境中的表現。

測試資料集A：聲音乾淨的文件

從A組中隨機抽取3780條語音數據，不重複。

測試資料集B：雜訊文件

在B組雜訊資料（16頻道*18場景）中，隨機選取3780個。

測試資料集C：混合測試資料集A 和 B 的文件

測試資料集C 的建立流程重點是將測試資料集A和測試資料集B混合，建立模擬實際使用環境的測試資料集。實際使用環境中重要的變數包括揚聲器和麥克風之間的距離、揚聲器的音量以及噪音源的位置，這些變數直接影響水平和信噪比（SNR）的設定如下。

揚聲器與麥克風之間的距離：揚聲器與麥克風之間的距離越大，錄製揚聲器的聲音就越小，音量也就越低。
說話者的聲音音量：說話者的聲音越大，錄製的語音資料的音量越高；如果說話者的聲音較小，則音量越低。
噪音源的位置和性質：噪音源的位置和性質（例如小、持續的噪音、大、間歇的噪音等）對 SNR 有重大影響。噪音源距離麥克風越近或噪音越大，SNR 越低。這意味著語音訊號相對於噪音的強度較低。

水平和訊號雜訊比是由上述變數決定的，它們是評估混合音頻數據音質和降噪技術性能的重要因素。水平決定了音訊資料的整體音量，而訊號雜訊比是指雜訊與語音訊號的比率，用於評估雜訊消除技術消除雜訊的效果。

透過考慮這些變數並設定各種等級和SNR條件，我們建立了一個測試資料集C，它可以覆蓋實際使用環境中可能出現的各種場景。這樣可以更準確、更全面地評估噪音消除技術的性能。

這些級別分為以下階段：

等級：-15、-20、-25、-30、-35、-40、-45 dB（共 7 個等級）

-15dB 的電平值表示聲音很大，這意味著大聲交談或揚聲器與麥克風之間的距離較短的環境。另一方面，-45dB 的電平值表示非常安靜的聲音。這可能是在安靜環境或距離麥克風很遠的耳語。

SNR 分為以下步驟：

訊號雜訊比：-5、0、5、10、15、20 dB（共6級）

SNR 值為 -5dB 表示噪音比語音訊號大。這模擬了非常吵雜的環境中的對話，例如建築工地附近或吵雜的咖啡館內的通話。另一方面，20 dB 的 SNR 值意味著語音訊號比噪音大得多。這可能適用於在相對安靜的辦公環境中進行清晰語音通話等情況。

根據水平和 SNR 的組合，總共創建 42 個（7 個電平步長 * 6 個 SNR 步長）條件。測試資料均勻分佈於每個條件，每個條件建立 5 個測試資料。在此過程中，噪音資料被調整到與語音資料相同的長度，以匹配特定的SNR，並且混合音訊資料的音量被調整到目標等級。

透過上述過程，為每個場景總共創建了210個資料集（42個條件*5個資料）。每級的信噪比和數據數量如下：

Level/SNR	-5	0	5	10	15	20
-15	5	5	5	5	5	5
-20	5	5	5	5	5	5
-25	5	5	5	5	5	5
-30	5	5	5	5	5	5
-35	5	5	5	5	5	5
-40	5	5	5	5	5	5
-45	5	5	5	5	5	5

測試資料集總數為：

場景數 (18) * 每個場景的測試資料集數量 (210) = 總計 3,780

此測試資料集旨在廣泛反映使用者在日常生活中可能遇到的各種情況。透過改變家庭、辦公室、咖啡館、路邊、公共場所等各種場所的電平和信噪比，再現日常生活中可能出現的各種噪音環境下打電話的情況。透過提供大量測試資料集作為 NS 技術的輸入，我們可以廣泛驗證其效能並精確評估其在現實環境中是否有效率運作。

NS 績效評估指標的選取

在 LINE，我們的目標是持續評估 NS 技術的性能並提高結果的可靠性。

ITU-T P.835 建議通常用於評估 NS 技術的性能，它提供了在有背景噪音的環境中主觀評估語音通話品質的具體程序。然而，主觀評估不僅成本高、耗時長，而且還存在局限性，即評估結果可能因評估者的主觀意見而出現錯誤。為了解決這些問題，HEAD Acoustics 創建了 3QUEST，這是一種基於 ITU-T P.835 建議的聆聽品質評估方法，但旨在更客觀地評估有背景噪音的環境中的語音通話品質。該方法被指定為標準 ETSI EG 202 369-3，旨在克服主觀評估的局限性，並支持在各種噪音情況下對產品性能進行定量評估。與 ITU-T P.835 透過直接聆聽聲音並參與評估來測量聲音不同，軟體對聲音進行評估，因此如果輸入相同，會得到相同的評估結果。

我們選擇 HEAD Acoustics 的 3QUEST 作為我們的 NS 評估工具。 3QUEST提供了三個客觀指標：S-MOS、N-MOS、G-MOS。

S-MOS：這是衡量移除雜訊後保留的語音品質的指標，以 1 到 5 的數字表示。
N-MOS：衡量去雜訊後剩餘雜訊量的指標，以 1 到 5 的數字表示。
G-MOS：代表 S-MOS 和 N-MOS 組合的整體品質。

下表總結了 ITU-T P.835 指導下的 S-MOS、N-MOS 和 G-MOS 的主觀評估方法。透過參考下表檢視 3QUEST 的結果指標，可以檢視評估者對語音失真和殘留噪音的主觀認知程度。

主觀言語MOS（S-MOS）的判定	主觀雜訊MOS（N-MOS）的判定	主觀全域MOS（G-MOS）的判定
只注意語音訊號，選擇最能描述您剛剛聽到的樣本的類別。此樣本中的語音訊號是 5 - 沒有扭曲 4 - 輕微扭曲 3 - 有點扭曲 2 - 相當扭曲 1 - 非常扭曲	僅關注背景，選擇最能描述您剛剛聽到的樣本的類別。該樣本的背景是 5 - 不明顯 4 - 稍微明顯 3 - 明顯但不干擾 2 - 有點干擾 1 - 非常干擾	選擇最能描述您剛剛聽到的用於日常語音交流的樣本的類別。整體語音樣本是 5 - 優 4 - 良好 3 - 一般 2 - 較差 1 - 差

主觀言語MOS（S-MOS）的判定

主觀雜訊MOS（N-MOS）的判定

主觀全域MOS（G-MOS）的判定

只注意語音訊號，選擇最能描述您剛剛聽到的樣本的類別。
此樣本中的語音訊號是

5 - 沒有扭曲
4 - 輕微扭曲
3 - 有點扭曲
2 - 相當扭曲
1 - 非常扭曲

僅關注背景，選擇最能描述您剛剛聽到的樣本的類別。
該樣本的背景是

5 - 不明顯
4 - 稍微明顯
3 - 明顯但不干擾
2 - 有點干擾
1 - 非常干擾

選擇最能描述您剛剛聽到的用於日常語音交流的樣本的類別。
整體語音樣本是

5 - 優
4 - 良好
3 - 一般
2 - 較差
1 - 差

資料來源：https://global.head-acoustics.com/downloads/eng/application_notes/telecom/Appl_note_3QUEST_e0.pdf

LINE 在 3QUEST 的三個指標中選取 S-MOS 和 N-MOS 兩個客觀指標進行評估。由於 G-MOS 是評估 NS 模組整體通話品質的指標，因此將其排除在外，因為當需要對特定指標進行效能改進時，可能很難直接確定其影響。相反，透過單獨評估 S-MOS 和 N-MOS 指標，可以更精確地導出和應用語音品質和降噪品質的改進。

當您播放下表中的音源時，您可以感受到 S-MOS 和 N-MOS 分數範圍之間音質的差異。

S-MOS	音訊檔案	筆記
1.x
2.x
3.x
4.x		清晰的聲音

包含來自VCTK 資料集的信息，該資料集根據ODC 歸屬許可證提供。

N-MOS	音訊檔案	筆記
2.x
3.x
4.x		清晰的聲音