こんにちは。音声技術エンジニアの T.Ryo です。AIを活用した音声合成・音声変換の研究開発に従事しています。
AI音声変換技術の実用化に向けた取り組みの一環として、社内で使える新しいショート動画サイトを開設しました。この記事では、その取り組みについてご紹介します。さらに、AI音声変換を活用して社内ユーザーが作成した動画作品もご覧いただけます。専門的な知識がなくても理解しやすい内容になっていますので、多くの方にお読みいただければ幸いです。
AI音声変換
AI音声変換とは?
AI音声変換技術とは、特定の話者(ソース話者)が発した音声を、内容をそのままに別の人(ターゲット話者)の音声に変換する技術です。たとえば、あなた自身の声を、性別を問わずまったくの別人の声に変換できます。声の特徴を自在に変えられるため、多様な用途での活用が期待されています。自分の声に自信がない方でも、セリフや歌を通じて作品を制作したり、多彩なキャラクターになりきることができます。この技術により、クリエイティブな表現の幅が広がり、また音声収録を伴う作品を公開するハードルを低くできると考えられます。
AI音声変換の手法
われわれが採用しているAI音声変換技術は、大量の音声データを用いてモデルを訓練することから始まります。このモデルは、自己教師あり学習によって、音声から言語情報、ピッチ、話者の特徴を抽出し、再構成する能力を持つように訓練されます。こうして訓練されたモデルは基盤モデルと呼ばれ、音声変換だけでなく、テキストからの音声合成や歌声合成など、幅広いタスクに応用可能です。
音声変換のプロセスでは、ソース話者の入力音声に加えて、ター ゲット話者の短いサンプル音声を使用します。基盤モデルを用いてソース話者の音声から言語情報とピッチを抽出し、ターゲット話者の音声からは話者の特徴を抽出し、これらを組み合わせて再構成することで、ソース話者の音声をターゲット話者の音声に変換します。一度訓練された基盤モデルは、学習データに含まれていない話者間でも音声変換を可能にします。
今回社内で公開したサービスでは、ターゲット話者として合計11名(男性5名、女性6名)をラインアップしました。これらの話者は、LINEヤフーで契約し収録した声優の音声を使用しています。ユーザーは、自分が変換したい声をこれら11名の中から選択できるようになっています。
誰でも簡単にAI音声変換を活用して作品を作れる、ショート動画投稿サイトを社内公開!
私たちのチームが開発したAI音声変換技術を社内で広める目的で、誰でも容易にこの技術を用いて創作ができるショート動画投稿サイトを新たに開設しました。このサイトでは、「カラオケ作品」と「アテレコ作品」の2種類のコンテンツ作成機能を提供し、社内ユーザーはこれらを利用して作品を作成し、共有できます。さらに、サイト上では他のユーザーの作品を視聴できるほか、コメントやお気に入り機能を通じてコミュニケーションを取ることもできます。
※カラオケ音源の準備にあたり、「カラオケ歌っちゃ王」様のご協力をいただきました。
わずか数ステップで簡単に作成・投稿
作品の制作は、以下の4つのステップで行われます。カラオケ作品とアテレコ作品でステップの順序は一部異なりますが、基本的なプロセスは同じです。これらのステップはすべて、サイト上で完結できます。
- 楽曲(BGM)選択: カラオケでは楽曲を選び、アテレコではBGMを選びます。
- 音声収録: 選択したテーマ(カラオケまたはアテレコ)に沿って、マイクを使用して音声を録音します。(カラオケはサビのみ)
- 音声変換: 11名の話者から目指す声を選び、声の強さを5段階で設定します。
- 画像選択: 動画で使用する画像を選びます。プリセットの画像や、ユーザーがアップロードした画像を利用できます。
カラオケ作品の制作における音声収録ステップでは、ユーザーがカラオケのキーを調整できるオプションを導入しました。この機能によって、たとえば男性ユーザーが女性の曲を歌う際にはキーを下げて録音し、音声変換を行う時には原曲のキーで出力することが可能になります。これにより、より多くの曲に挑戦しやすくなり、ユーザーの表現の幅が広がります。
さらに、音声変換ステップでは、話者の選択に加えて「声の強さ」を調節できるオプションも追加しました。これに より、自然なトーンから力強い声まで、多様な声質を再現できるようになりました。カラオケでは特に、声の強さを調整することで、曲の印象が大きく変わることがあります。技術的には、選択可能な話者の「通常の声」と「強い声」の両方のバリエーションを準備し、その特徴を補間することで、この機能を実現しています。
それでは、サイトに投稿された作品の中からいくつかピックアップしてご紹介します。
AI音声変換を活用した投稿作品の紹介
男性→女性(ピコ)への変換(カラオケ作品)
男性→女性(オトハ)への変換(カラオケ作品)
男性→女性(オトハ)への変換(アテレコ作品)
女性→男性(ゴロウ)への変換(アテレコ作品)
※ 動画を一般 公開するにあたり、画像を差し替えております。
自分の声を録音して作品として公開することは勇気が必要ですが、AI音声変換を利用して手軽に投稿できるサイトを提供することで、そのハードルを大幅に下げられました。その結果、さまざまな作品が投稿され、中には動画投稿自体が初めてのユーザーもいました。
AI音声変換を利用したオリジナル作品に挑戦、「Voice Short Challenge」開催!
AI音声変換ショート動画サイトでは、「カラオケ動画」と「アテレコ動画」を通じて、誰でも簡単にAI音声変換の魅力を体験し、作品を楽しく投稿できることを目指した環境を提供しています。これに対して、「Voice Short Challenge」コンテストは、参加者の創造性を存分に発揮してもらい、AI音声変換技術を巧みに使ったクオリティの高い作品作りにチャレンジしてもらうことを目的に企画しました。
コンテストの基本ルールは以下のとおりです。
- 15秒〜90秒程度の長さのショート動画作品。
- テーマは自由。
- コンテストサイト上で提供されるAI音声変換機能を使用した音声素材を利用すること。
「Voice Short Challenge」では、「カラオケ動画」や「アテレコ動画」のようなフォーマットにとらわれず、応募者自身のアイディアと創造力が求められるコンテストです。参加者は動画の企画から制作までを自ら行う必要があり、そのため参加のハードルは高いかもしれません。しかし、それによって創作の自由度は広がり、より個性的な作品の制作が可能となります。
コンテスト運営スタッフによるオリジナル作品
運営スタッフとしてコンテストの参考作品を提示するために、私もAI音声変換を利用したオリジナル作品作りに挑戦しました。
作品名:「LAST PAGE」Lyric Video
作品説明:LAST PAGE という曲を作詞作曲・歌って演奏し(ギターとベースを演奏、ドラムは打ち込み)、リリックビデオを作成しました。趣味でギターや作曲をやっているのですが、AI音声変換で女性の声になれるということで、初めて女性ボーカルの曲を作ることにチャレンジしました。ロックに合うと感じた声の「ナオミ」を利用しています。
「Voice Short Challenge」入賞作品の紹介!
多数の応募作品の中から、AI音声変換の活用、アイディア性、作品の総合的な品質の3つの基準で審査を行いました。審査員らで議論を交わした末に選ばれた入賞作品から、最優秀賞を獲得した作品をご紹介します!
最優秀賞
作者:はぐれチエコ さん
作品名:女勇者は断れない
作品説明:選択の余地がありそうで無い勇者の運命を表現しました。女性キャラは「ピコ」、男性キャラは「ダイキ」を利用しています。
女性話者と男性話者を使い分けることにより、一人の演者が複数のキャラク ターを演じる、AI音声変換を巧みに活用した作品です。しっかりとしたオチがあるおもしろいショートストーリーが印象的ですね! さまざまなキャラクターを演じ分けできるのは、AI音声変換技術ならではの魅力的な使い方だと感じます。
他の方々の応募作品もそれぞれに個性が光り、審査員全員が選考を楽しんで進められました。すべての作品を紹介できないことは残念ですが、応募いただいたすべての作品に対し、心からの感謝を申し上げます。
おわりに
いかがでしたか? ここで紹介した作品はすべて、AI音声変換技術を活用して創り出されたものです。この技術が、ユーザーの創造性を刺激し、新たなアイデアを形にする助けとなることを願っています。私たちは、AI音声変換がクリエイティビティを促進するツールとして、今後も発展していくことを目指しています。
今回のサービス運用を通じて、「楽しい!」という声を社内からいただくことができたほか、関心を持ってくださった事業部との新たなつながりも築くことができました。また、音声変換技術の品質向上を求める声もあり、私たちはこれを受けて改善に向けた取り組みを進めていきたいと考えています。
社内イベントの運営は、私たちのチームにとって初めての経験でした。音楽著作権や法務関連の課題など、多くのハードルを乗り越える必要がありましたが、他チームからの手厚い協力により、企画を実現できました。また、個人として作品制作に挑戦する中で、技術者的な観点だけでなく、クリエイティブな観点からも多くの洞察を得られたことは、大きな収穫でした。
私たちは、この 技術をより多くの人に活用していただけるよう、社外への展開を含めた実用化に向けて、継続的に取り組んでいきます!