人間が楽しめる「落語」音声を合成【AI論文】

合成音声はまだまだ機械的

「Siri」などの音声アシスタントや、「初音ミク」のようなボーカロイドなど、私たちの生活では人工的な合成音声を耳にする機械が増えてきた。しかし、合成音声の多くは、イントネーションがネイティブには及ばず、言葉に感情も乗っかっていないため、どこか機械らしさが残っている。人間がAIと楽しく会話できる日は来るのだろうか。

総合研究大学院大学の加藤ら研究者は、「音声合成モデル」の研究が進む中で、機械はまだ人間のように人を言葉で楽しませることはできていないという課題に着目し、落語音声の合成モデルの構築に取り組んだ。

結果、性能はプロのレベルには達していないものの、被験者を楽しませるという点においてはプロのレベルと大差ない結果を出したモデルもあった。

人間を楽しませる機械落語

加藤らの研究のポイントは以下の通りだ。

✔️ミッション
これまで機械は人間のように「人を言葉で」楽しませることはできていない

✔️解決手法
複数のモデルで落語の合成音声の作成に取り組んだ

✔️結果
音声合成モデルはプロのレベルには達していないものの、被験者を楽しませるという点においては大差ない結果を出したモデルもあった

その詳細を以下で述べる。

機械の言葉は人を笑わせることができない

これまでの研究で、いくつかの音声合成システムの完成度を「平均オピニオン評点(MOS)*」という方法で特典付けした場合、すでに自然音声と同じレベルに達していることが分かっている。様々な話し方を用いて音声をモデル化する試みは、深層学習に基づく音声合成の領域でも、活発に研究されている。しかし、機械は人間のように、人間を言葉で楽しませることは、まだできているとは言えない。

*平均オピニオン評点(MOS)・・・圧縮・転送後に受信側で知覚されるメディアの品質の評価を数値で表す方法

複数のモデルで落語音声の合成に挑戦

加藤らは、次のような手順で、落語音声の合成を試みた。

  1. 計13.2時間(25話分)の落語の動画を撮った。

2. 内容を書き起こした。
3. 落語の内容についてラベルづけ(登場人物の役割、人物、状態、関係性、登場人物の人数、人物同士の距離、話の段階)を行った。

4. 「Tacotron-2-based(IV-A)」モデルと「SA-Tacotron-based(IV-B)」モデルに基づく複数のモデルで音声合成した。

Tacotron2-based モデルの全体ネットワーク構造
SA-Tacotronモデルの全体ネットワーク構造

5. リスニングテスト(Q1. ナチュラルさはどうだったか、Q2. 登場人物をどれくらい正確に区別できたか、Q3. 内容をどのくらい理解できたか、Q4. どのくらい楽しめたか)を行い、性能を比較・評価した。

6. テストセットについてアライメントエラーと、ピッチとアクセントに関するエラーを数えた。

被験者を楽しませるモデルの生成

リスニングテストを通して、音声合成モデルはまだプロのレベルには達していないことがわかった。だが興味深いことに、いくつかの音声合成モデルは被験者を楽しませるという点だけにおいては、プロのレベルと大きな差はなかった。

改善の余地はあるが、これはプロレベルでの人を楽しませることができる音声合成の実現に向けた重要な足がかりである。

エラー率とMOSの間に関係性は見受けられなかった。

リスニングテストの各質問についての結果の箱ひげ図。水色の線は中央値を表す。(*:p<0.05, **:p<0.01, ***:p<0.005, *****:p<0.001)
AbS音声と各(SA-)Tacotronシステム間のBonferroni補正を用いたBrunner‐Munzel試験による有意差のみを示した。
(SA- )Tacotronベースモデル間には有意差はなかった。
MOSスコア間の相関(Q4とそれ以外)
アライメントエラー率
ピッチ、アクセントのエラー率

合成音声のサンプルを聞いてみよう

SA-Tacotron-GST-8-contextによる合成音声を聞いてみると、噺の内容が理解できることが分かる。

1: A short story about foolish brothers(馬鹿な兄弟についての短い話)

2: Conversation between a mother and her son(母と息子の間の会話)

もっと聞きたい方はこちら

研究紹介は以上だ。

落語家が、機械によって取って代わられてしまう日は来るのだろうか?
そんなことに悩む人間の噺をAI落語家から聞く日を待つとしよう。


この記事で取り扱った論文:
S. Kato, Y. Yasuda, X. Wang, E. Cooper, S. Takaki and J. Yamagishi,”Modeling of Rakugo Speech and Its Various Speaking Styles: Toward Speech Synthesis That Entertains Audiences”,
arXiv:1911.00137
 [eess.AS]
筆頭著者: 加藤集平(総合研究大学院大学 複合科学研究科 情報学専攻 博士課程/国立情報学研究所 リサーチ・アシスタント)研究室運営者/指導教員: 山岸順一(国立情報学研究所 コンテンツ科学研究系 教授)



◎ライター募集◎

AIの最新論文を読んで、要約記事を書いてみませんか?

アイブンでは、一緒に記事を作ってくださるライターさんを募集しています(有償)。アイブンは、日本最大のAI論文要約データベースを目指しています。今後データベースを充実させていくには、多くのライターさんのご協力が必要です。

AIや情報系・工学系のバックグラウンドをお持ちの方、AI関連のお仕事をされている方、AIを学習中の方など、AIに関心がおありの方なら、どなたでもウェルカムです!

少しでも興味を持たれましたら、お気軽にご連絡ください。お待ちしております!

詳細はこちら。

業界から探す

PAGE TOP