以下で紹介した美少女合成音声の音質改善方法について記述にしようと思います。
イヤホンで聞かないとわかりにくいかもしれませんが、上記の記事で紹介した音声は、後ろで「キンキーン」というノイズが入っています。今回の記事では、その「キンキーン」をどうやってなくしたかを記述します。
近年のTTS(Text to Speech。テキストから音声に変換すること)は「テキストからメルスペクトログラム(音声の設計図のようなもの)への変換」のあとに「メルスペクトログラムから音声への変換」を行います。「テキストからメルスペクトログラムへの変換」を行う機械学習モデルを音響モデル。「メルスペクトログラムから音声への変換」を行う機械学習モデルをボコーダと言います。
上記の記事の合成音声ではWaveGlowというボコーダを用いてます。
音質改善のためにボコーダを変えようと思い、PaeallelWaveGanというボコーダに変更することしました。PaeallelWaveGanのボコーダは、以下のGitHubのコードで作成できます。
この仕組みで作成した合成音声はこちらの動画で紹介しています。
さらに「学習に使用していた500文のアニメ風音声」の品質を上げて作り直したものを以下の動画で紹介しました。
最後に、生成された音声を、音声加工ソフト「Audacity」でノイズ除去などの加工を行い、少し音声を綺麗にしたものを以下の動画で紹介しました。