こんにちは、音声認識技術の研究開発を担当している篠原です。
この記事では、音声認識モデルのドメイン適応のために最適なデータセットを抽出する技術について紹介します。汎用データセットから目的ドメインのデータセットを擬似的に生成できるため、特定用途向けのカスタムモデルの構築(ドメイン適応)を低コストで実現できます。
なお本技術は、米国カーネギーメロン大学の渡部晋治准教授との共同研究を通して考案したものです。詳細については、国際会議 ASRU 2023(IEEE Automatic Speech Recognition and Understanding Workshop 2023)で発表していますので、興味がある方はぜひ論 文 [1] もご覧ください。
はじめに
音声認識とは?
音声認識は入力された音声をテキストに変換する技術です。たとえば、スマートフォンでの音声によるウェブ検索などで使われています。ソフトウェアキーボードと比べて検索したい単語を素早く入力できるため、使ったことがある方も多いのではないでしょうか。他にも、動画共有サービスでの自動字幕付与、ミーティングの議事録作成、コンタクトセンターの自動化、音声で操作できるスマートデバイス、自動音声翻訳、音声対話アシスタントなど、さまざまな場面での応用が進んでいます。
近年、音声認識はニューラルネットを用いた「End-to-End 音声認識」と呼ばれる方式が主流になりつつあります。具体的には、入力系列を出力系列に変換するニューラルネット(たとえば Transformer)を用いて、音声系列を文字列に変換することで音声認識を行います。音声とテキスト(音声の内容を文字列として書き起こしたもの)のペアを大量に収集したデータセットで学習することで、音声を聞き取ってテキストに変換するニューラルネットを構築できます。
ドメイン適応とは?
音声認識モデルを特定のサービス向けに導入する場合には、汎用モデルをカスタマイズしたサービス特化モデルを構築することで、より高い認識精度が得られます。たとえば金融分野、医療分野、テクノロジー分野などに特化したモデルが考えられます。このような分野のことを「ドメイン」、汎用モデルを特定ドメイン向けにカスタマイズすることを「ドメイン適応」と呼びます。