pythonでwavファイルのサンプリング周波数を変換する

はじめに pythonでwavファイルのサンプリング周波数を変換する方法を記述します。 必要なライブラリ 使うライブラリは「librosa」と「PySoundFile」なのでインストールします。 この記事は以下のバージョンでの実装を記述しています。 $ pip install librosa…

音声合成のために日本語を音素に変換する

はじめに 近年の音声合成は以下のような構造をとることが多いです。 今まで私は主に音響モデル部分を中心に記事を書いてきました。 しかし意外と重要なのがこのテキスト処理部分です。今回はテキスト処理についてまとめていきます。 テキスト処理ライブラリp…

機械学習で美少女の合成音声を自作する

ディープラーニングでアニメ風の合成音声を自作する方法を説明します。

Tacotron2を日本語で学習してみる(転移学習編)

前回、0からの学習でTacotron2の日本語モデルを作成しましたが、上手く音声生成できませんでした。そこで、今回は転移学習でTacotron2の日本語モデルを作ってみます。

Tacotron2を日本語で学習してみる(0から学習編)

NVIDIA社が公開しているTacotron2は英語モデルです。そこで、夏目漱石の明暗を朗読した6841個のwavファイルを用いて、Tacotron2の日本語モデルを作ってみます。

pythonでwavファイルのサンプリングビット数(量子化ビット数)を変換する

pythonでwavファイルのサンプリングビット数(量子化ビット数)を変換するライブラリとコードを紹介します。簡単にできるかと思いきや、調べてもあまり見つからなかったので自分でもまとめておきます。

NVIDIAのTacotron2モデルを再現してみた

NVIDIA/tacotron2ソースコードの説明に従いモデルを作成し、NVIDIA提供モデルと同じモデルが作れるのかを明らかにします。