以前、LINEアプリで音声品質を測定するという記事で、LINEアプリにおけるアコースティック環境やネットワーク環境の変化、グローバル環境に対応する方法を紹介したことがあります。特に、アコースティック環境への対応方法と関連し、AEC(acoustic echo cancellation、エコー除去)の性能を測定する方法について詳しく説明しました。今回の記事では、アコースティック環境対応の重要な要素の一つであるノイズ抑制(noise suppression、以下NS)技術の性能を測定する方法を紹介します。
NS技術の紹介 - NSとは?
音は空気中で振動する波の形で伝わり、マイクはその音波を電気的な信号に変換する装置です。しかし、マイクは周囲のあらゆる音を拾うため、ユーザーの声だけでなく、バックグラウンドノイズも拾ってしまいます。そのため、マイクに拾われた信号にはユーザーの声と周囲のノイズが混在しており、そ のノイズは通話品質を低下させる可能性があります。
NSは、周囲からのノイズを抑制し、ユーザーに対してよりクリアで高品質な音声通話を提供する技術です。実際、ノイズのない完璧に静かな環境を作ることは不可能であるため、ノイズの問題はNS技術によって解決されなければなりません。NS技術は、ユーザーがさまざまな環境下でクリアな音声通話ができるようにサポートしており、これはLINEアプリのユーザー体験の重要な要素です。
LINEアプリは独自の技術でNSを開発しており、ML(Machine Learning)技術を導入することで、高品質なノイズ抑制性能を提供しています。これにより、ユーザーは周囲のノイズによる不快感を最小限に抑えた、クリーンで高品質な音声通話を楽しめます。
NS性能の測定方法
定量的評価は、NS技術の性能を客観的に測定・評価できる重要な方法です。定量的評価により、NS技術のノイズ抑制能力を確実に把握し、ユーザーの通話体験を継続的に改善できます。
NS技術の性能を評価する上で最も重要な2つの要素は、オーディオ品質の維持とノイズ抑制能力の測定です。これは、その技術がユーザーの声など必要な音はそのまま維持しながら、バックグラウンドノイズをどれだけ低減できるかを評価することを意味します。
LINEアプリの開発では、定量的評価によってNS機能を効果的に管理し、ユーザーに最高の通話体験を提供するための努力を続けています。その一環として、NS技術の性能測定は以下の手順で行われます。
- 性能測定アプローチの確立
- データセットの選定
- テストデータセットの準備
- NS性能評価 指標の選定
- 測定システムの環境設定
- NS性能の測定
各手順を順番に説明します。
性能測定アプローチの確立
NS性能を測定するために確立したアプローチは、以下のとおりです。
-
再現性と一貫性の確保
標準化された評価ツールを使用し、再現可能な環境で性能を測定します。また、同じデータセットでネットワークの影響を最小限に抑えるために、ローカル環境でテストを行います。これにより、同じ条件下で一貫した結果を得ることができ、NS技術の性能変化や改善点を正確に把握できます。 -
信頼性の高い評価指標
国際的に認められた評価基準を用いて、業界や学界で広く認められている信頼性の高い性能指標を算出します。このように音声の明瞭度やノイズ抑制効果を示す指標を算出することで、NS技術性能の信頼性を確保できます。また、製品の性能を定量的に比較し、開発の方向性を設定できます。 -
さまざまなノイズ環境での性能確認
NS技術の性能をさまざまな環境で定量的に確認するため、以下のように測定を行います。
a. 大規模な音声データセット:性別、年齢などを考慮した多数の音声サンプルを含む音声データセットを使用します。
b. 多様なノイズタイプ:カフェ、道路、オフィスなどさまざまな環境からのノイズを含むノイズデータセットを使用します。
c. 合成比率の調整:NS技術の安定性を高めるため、元の音声とノイズをさまざまな比率で組み合わせテストを行います。
LINEアプリの開発では、上記のようなアプローチにより、NS技術がさまざまな環境でどれだけ効果的に機能するかを検証し、ユーザーに最高の音声通話体験を提供するために努力しています。
データセットの選定
私たちの目標は、人間が聞き取れるすべての可聴周波数帯域においてNS技術の性能を評価することです。そのために、48kHzの高解像度の音源をデータセットとして選定しました。48kHzのサンプリングレートを持つ音源は、人間の可聴周波数の範囲である約20Hzから20kHzまでの音を包括的に含み、NS技術がさまざまな周波数でどのように機能するかを高い精度で評価できます。
また、ノイズデータセットとして、18の異なるシーンで構成されたデータを選択しました。各シーンは異なる場所で録音されたもので、ユーザーの位置や環境によってNS技術がどのように異なる動作をするかを評価する上で重要な要素です。ユーザーの実際の環境は非常に多様であるため、そのような多様な環境でも効果的にノイズを抑制できるかどうかを検証するために、さまざまなシーンや場所で録音されたデータを使用します。
最後に、信頼性の高い評価結果を得るためには、十分な量の音源データが必要です。さまざまな音源を含めることで統計的に有意な結果を得ることができますが、それによってNS技術の一貫した性能を検証し、例外的なケースや特定の条件下での性能低下を把握できます。
これらの要素を考慮し、高解像度の48kHz音源とさまざまな環境で録音された18のシーンを含むノイズデータセットを選定しました。
グループA:音声データセット
音声データセットとして、韓国知能情報社会振興院が運営するAI統合プラットフォーム「AIハブ」で公開されている多言語通訳・翻訳朗読データのうち英語のデータを使用します。
- データの出典:https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71524
- データ名:「Validation - 원천 데이터(ソースデータ) - VS_en_1」を使用(合計17,981個)
- 形式
- サンプリングレート:48kHz
グループB:ノイズデータセット
ノイズデータセットとしては、Demandデータセットを使用します。
- データの出典:https://zenodo.org/records/1227121
- ノイズの種類
- 全18のシーンで構成
- 各シーンごとに16チャンネル(複数の位置で同時に録音)
- 形式
- サンプリングレート:48kHz
- 長さ:5分
下の表は、Demandデータセットに含まれるノイズのシーンを示しています。6つの大分類に分けられ、各大分類は3つのシーンで構成されています。
| 分類 | シーン | 説明 |
|---|---|---|
| 家庭内 | Washing | 洗濯機が稼働している洗濯室 |
| Kitchen | 料理を準備しているキッチン | |
| Living | 音楽が流れるリビング | |
| 自然 | Field | スポーツ競技場 |
| River | 水が流れる小川 | |
| Park | 観光客の多い公園 | |
| オフィス | Office | 3人がパソコンを使用しているオフィス |
| Hallway |