機械学習で美少女の合成音声を自作する

はじめに

以下のような、アニメ風の合成音声を自作する方法を記述します。

「今日はいい天気ですね。」

使った技術

今回はTacotron2という技術を使いました。Tacotron2に関しては以下で説明しています。

Tacotron2による音声合成を体験する

データセット

学習のために、アニメ風の音声を535用意しまいした。そのうち500を訓練、35を検証に分割しています。

項目	数
train	500
val	35

学習の工夫（転移学習）

Tacotron2を0から学習させようとすると、5000程度の音声を必要とするように思います（筆者の体感）。しかし、目標とする音声を5000も集めることは困難です。そこで今回は転移学習という技術を使いました。

転移学習は簡単に言えば、目標の音声以外で学習して音声合成モデルの基礎を作り、目標音声で追加学習して目標の声のモデルを作るという発想です。

今回はパブリックドメイン（著作権なし）の音声のみで基礎を作ろうとしたため、12500の英語音声で学習したあと、6800の日本語音声で学習することで、日本語の基礎モデルを作っています。具体的なこの基礎モデルの作り方に関しては以下の記事に記述しています。日本語の音声をたくさん持っているのであれば英語モデルを経由せず、いきなり日本語音声で基礎モデルを作成しても良いと思います。

Tacotron2を日本語で学習してみる（転移学習編）

ハイパーパラメータの設定

学習時のハイパーパラメータは、500とサンプル点数が少ないので、batch_sizeを10にしました。

項目	デフォルト値	設定値
text_cleaners	['english_cleaners']	['basic_cleaners']
batch_size	64	10

学習結果

学習後のtrainとvalのlossの結果です。valが途中から右肩上りになっているので、過学習しているようにも思います。しかし、生成音声のクオリティに関してはvalの最小点あたりの、7k stepと74k stepであまり差を感じませんでした。過学習ではなくvalの音声が35と少ないことが原因なのかもしれません。