【Style-Bert-VITS2】 Google Colabを使って音声クローンモデルを作るKnowledge Stock, Insights on Productivity

【Style-Bert-VITS2】 Google Colabを使って音声クローンモデルを作る

使用するツール

Style-Bert-VITS2

litagin02 • Updated Jul 2, 2025

学習の手順

http://colab.research.google.com/github/litagin02/Style-Bert-VITS2/blob/master/colab.ipynb

Google Colab

学習用の音声を用意する

YouTubeから変換MP3

YouTubeからビデオをダウンロードし、高品質のMP3ファイルに変換します。わずか数秒ですべてのYouTubeビデオ形式をMP3に変換できます。オンラインで、速く、簡単に、無料でダウンロード

https://www.y2mate.com/jp836/youtube-mp3

YouTubeから変換MP3

.mp3 ではなく .wav のファイル形式で用意してください。mp3から変換してください。

MP3 to WAV Converter

数秒でMP3をWAVファイルへ変換する最良の方法。 100％無料で、安全、そして使いやすい！ Convertio — いかなるファイルのどんな問題も解決する高度なオンラインツール。

https://convertio.co/ja/mp3-wav/

音声ファイルをGoogle Driveに保存

Style-Bert-VITS2フォルダを作成

notion image

inputs フォルダを作成

notion image

用意した音声ファイルを保存

notion image

コードを順番に実行していく

完了したらあとは掲載されているコードを順番に実行していきます

環境構築

notion image

初期設定

notion image

データセットの作成

notion image

学習のパラメーターを設定

notion image

続いて実行

notion image

学習

notion image

生成された学習モデル

Google DriveのStyle-Bert-VITS2/model_assets/ に格納されています。「nagaoka」という音声モデルを作った場合はこうなります。

notion image

インストール

Style-Bert-VITS2

litagin02 • Updated Jul 2, 2025

notion image

© Yusuke Sugino 2024 - 2025