最新の音声合成手法「VITS」を用いて日本語音声合成を試してみました。
VITSは2021年6月に発表された音声合成の手法です。論文はこちら。
この手法がなかなかすごくて特徴をざっくりまとめると以下です。
簡単に言うと「めちゃつよ」です。
こちらで公開されています。
日本語対応のためにsymbolsとcleanersを用意しました。
symbols = [' ', 'I', 'N', 'U', 'a', 'b', 'by', 'ch', 'cl', 'd', 'dy', 'e', 'f', 'g', 'gy', 'h', 'hy', 'i', 'j', 'k', 'ky', 'm', 'my', 'n', 'ny', 'o', 'p', 'pau', 'py', 'r', 'ry', 's', 'sh', 'sil', 't', 'ts', 'ty', 'u', 'v', 'w', 'y', 'z']
def japanese_cleaners(text):
phonemes = text.split('-')
return phonemes
1話者TTSとしてAで学習したあとにBで転移学習してもよかったのですが、2話者TTSとして学習した方が手っ取り早く、性能的にも転移学習した場合と同等なのではと思ったので2話者TTSにすることにしました。
データセットの数の細かい内訳は以下のような感じです。
データセット名 | 訓練用の数 | 評価用の数 |
---|---|---|
A: Japanese Single Speaker Speech Dataset | 6749 | 50 |
B: つくよみちゃんコーパス + つくよみちゃん追加音声 | 700 | 16 |
合計 | 7449 | 66 |
学習のためのファイルリストは以下のように作りました。「<ファイルパス> | <話者ID> | <読み上げ文の音素>」です。読み上げ文の音素が「-」区切りなのは「japanese_cleaners」でそう定義したからです。
meian-wavs/meian-3510.wav|1|sil-ts-u-d-a-t-o-s-a-sh-i-m-u-k-a-i-n-o-t-o-k-i-n-i-k-u-r-a-b-e-r-u-t-o-pau-m-a-r-u-d-e-b-e-ts-u-j-i-N-n-o-y-o-o-n-i-r-e-e-g-i-t-a-d-a-sh-i-k-a-cl-t-a-sil
tsukuyomi-wavs/tsukuyomi-0192.wav|0|sil-g-e-N-z-a-i-n-o-o-N-s-e-e-g-o-o-s-e-e-g-i-j-u-ts-u-d-e-w-a-k-a-N-p-e-k-i-n-i-k-o-e-o-s-a-i-g-e-N-s-u-r-u-k-o-t-o-w-a-d-e-k-i-m-a-s-e-N-g-a-pau-k-I-f-u-y-o-m-i-ch-a-N-n-a-r-a-pau-sh-o-o-g-i-k-a-i-n-i-d-a-k-e-w-a-k-a-N-z-e-N-n-a-k-o-e-o-n-o-k-o-s-U-k-o-t-o-g-a-d-e-k-i-m-a-s-U-sil
meian-wavs/meian-0424.wav|1|sil-y-a-g-i-h-i-g-e-o-h-a-y-a-sh-I-t-a-h-o-s-o-o-m-o-t-e-n-o-ch-i-ch-i-n-o-k-a-o-o-i-t-a-z-u-r-a-n-i-s-U-k-e-cl-ch-i-sh-I-t-e-pau-d-o-o-sh-i-y-o-o-k-a-t-o-k-a-N-g-a-e-t-a-pau-y-a-g-a-t-e-k-a-r-e-w-a-k-e-cl-sh-i-N-sh-I-t-e-t-a-ch-i-n-o-b-o-cl-t-a-sil
configはほぼ「ms_base.json」のままで400k stepくらい学習させました。3、4日くらい学習を回していた記憶です。音声合成時の推論時間はだいたいCPUで「2~5秒」、GPUで「0.2~0.8秒」くらいでした。
「この音声は最新の音声合成手法でつくられました」
「今日はとってもいい天気ですね」
「シロワニさんの機械学習ブログをよろしくお願いします」
「この音声は最新の音声合成手法でつくられました」
「今日はとってもいい天気ですね」
「シロワニさんの機械学習ブログをよろしくお願いします」
自分の肌感として、VITSはナレーションのTTSとしては現状最強の手法な気もします。しかし、感情的なアニメ風TTSを作る場合は上手くいかない可能性もありそうです。
このまとめについては、自分はちゃんと実験したわけではないので、感想程度に受け止めていただけると幸いです。
「シロワニさんのつくよみちゃんトークソフト」は、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データから作られています。
■つくよみちゃん公式サイト
https://tyc.rei-yumesaki.net
■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/
■サムネイル画像に使用したイラスト素材:えみゃコーラ様
https://tyc.rei-yumesaki.net/material/illust/
© Rei Yumesaki