つくよみちゃんトークソフトの作り方

はじめに

先日公開した「シロワニさんのつくよみちゃんトークソフト」の作り方を記述します。

「シロワニさんのつくよみちゃんトークソフト」に関してはこちら。

シロワニさんのつくよみちゃんトークソフト

こちらの作り方は、初回公開時（version.1.0.0）のものとなります。今後、違う作り方になっていく可能性は大いにありますので、ご注意ください。

使用したソースコード

つくよみちゃんトークソフトは以下の二つをオープンソースを使用しています。

GitHub - espnet/espnet: End-to-End Speech Processing Toolkit

GitHub - kan-bayashi/ParallelWaveGAN: Unofficial Parallel WaveGAN (+ MelGAN & Multi-band MelGAN) with Pytorch

音響モデルとボコーダ

こちらの記事でも記述したように、近年のTTS（Text to Speech。テキストから音声に変換すること）は「テキストからメルスペクトログラム（音声の設計図のようなもの）への変換」のあとに「メルスペクトログラムから音声への変換」を行います。「テキストからメルスペクトログラムへの変換」を行う機械学習モデルを音響モデル。「メルスペクトログラムから音声への変換」を行う機械学習モデルをボコーダと言います。

使用した音響モデル

上述したオープンソース、espnetではTTS用の音響モデルを作ることができます。音響モデルにもいくつか種類があり、espnetでは以下が作成可能です。

Tacotron2 (2017)
Transformer-TTS (2018)
FastSpeech (2019)
FastSpeech2 (2020)

一番新しいFastSpeech2が良いのではとも思いますが、つくよみちゃんトークソフトではTacotron2を使用しています。理由は以下です。

FastSpeech、FastSpeech2は品質改善ではなく速度改善がメインだと言うこと（品質も上がっている可能性もありますが、これに関してはまだちゃんと論文を読めていないです）。
FastSpeech、FastSpeech2の学習は少し手間がかかるということ（espnetでは、Tacotron2かTransformer-TTSモデルを作った後に作る必要がある）。
Transformer-TTSがなぜか自分のデータセット・環境では上手く学習できなかった（Tacotron2よりTransformer-TTSの品質が良いと論文では書いてあったりしますが）。

そんなこんなでTacotron2を使いました。2017年のTacotron2さんに自分はいつまでお世話になるのだろうか......

使用したボコーダ

上述したオープンソース、ParallelWaveGANではTTS用のボコーダを作ることができます。ボコーダにもいくつか種類があり、ParallelWaveGANでは以下が作成可能です。