【動画で解説】現代の魔法:VG WebUIの使い方
– RVC WebUI AIボイスチェンジャーの学習モデルでテキスト音声合成編
Text-To-Speech with RVC AI Voice Changer Tutorial
【現代の魔法】VG WebUIの使い方入門
:RVC WebUI AIボイスチェンジャーの学習モデルでテキスト音声合成
視聴時間:14分36秒
文字情報だけではわかりにくい場合に、解説動画をご活用いただけますと幸いです。
【2024年7月28日時点の状況】再びVG WebUIが使えるように修正できました。
【更新情報:2023年5月21日】
2023年5月20日に、ESPnet(End-to-end speech processing toolkit:End-to-End音声処理ツールキット)による生成音声をRVC WebUIで作成した学習モデルで変換できる機能が追加(活舌・ラ行のテキスト音声合成の精度向上)されたことに伴う、「手順5:VG WebUIの起動」のエラー報告
ModuleNotFoundError: No module named ‘espnet2’
をいただきましたので対応しておきました。
チュートリアル動画のコメントで教えてくださった方は、ありがとうございました。
【確認事項:2023年6月7日】
2023年6月7日確認時点では、「手順4」で依存関係間の諸問題もあるようでしたが、とりあえずVG WebUIは使えるようでした。
尚、「RVC v2モデル」(オリジナル版RVC WebUI & だだっこぱんださん版RVC WebUI)を使おうとしたところ「vc」関連のエラーが出て使えないようでした。
RVC WebUIで作成した学習モデルを使われる方は、「RVC v1モデル」の学習モデルを利用してください。
【更新情報:2023年11月17日・18日 – 動作するように修正】
VG WebUIを使えるように、RVC V1モデル対応版とRVC v2モデル対応版のチュートリアルコードを修正しておきました。
【更新情報:2024年7月28日 – 動作するように修正】
Google Colaboratoryの環境の変更に伴いVG WebUIが使えない状況でしたが、再度VG WebUIを使えるように、RVC V1モデル対応版とRVC v2モデル対応版のチュートリアルコードを修正しておきました。
音声AIが熱い!でも、まだ敷居が高い?
VG WebUI – AIボイスチェンジャーで音声合成のチュートリアル
2023年4月18日には、AIボイスチェンジャーこと
RVC WebUI:
RVC-Project(旧liujing04)/Retrieval-based-Voice-Conversion-WebUI(The MIT License)| GitHub
のチュートリアルを公開させていただきました。
SNSや、YouTube動画、ネット記事などで、リアルタイムボイスチェンジを試みている方もいるようで、2023年4月からの音声AIの関心の高さが伺えます。
この記事初回執筆時点の2023年4月から数十年後に、過去を振り返った時に
✔︎ 2023年4月が一般の方が音声AIの恩恵を享受し始めたターニングポイントだった
(音声AIの民主化?)
と認知されているのではないかと勝手に想像しています。
自分自身も、リアルタイムボイスチェンジも試したいと思ってはいますが、パソコンのスペックが追いつかないため、現時点では、チュートリアルの作成は残念ながら諦めています…
しばらくの間、RVC WebUIで作った学習モデルの使い道に頭を悩ませていました。
その後、音声AIに関する情報にアンテナを張っていると、2023年4月18日に、なんと!
ありがたいことに、RVC WebUIで作った学習モデルを使って、テキスト音声合成(テキストの音声読み上げ:TTS – Text to Speach)ができてしまうプログラムである
VG WebUI:
log1stics/voice-generator-webui(The MIT License)| GitHub
をリリースしてくださった方がいらっしゃることを知ったので、早速試してみることにしました。
プログラムの起動自体はとてもシンプルで、サンプルの学習モデルを使ってテキスト音声合成を試すのはとても簡単でしたが、RVC WebUIで作った学習モデルを追加するには、少しGoogle Colaboratoryの使い方の知識も必要かと思いましたので、音声AIに関心のあるこのサイトの読者の方が、気軽にVG WebUIでオリジナルの学習モデルを追加するためのサンプルコードを公開することにしました。
今回の一連の情報が、AIボイスチェンジャーで作成した学習データを使って、テキスト音声合成(テキストの音声読み上げ)を試してみるきっかけになることがありましたら幸いです。
サンプルコードリンク・プログラムのライセンス
VG WebUIを気軽に試せるように、使い方の解説などを入れたサンプルコードを公開しました。
AIボイスチェンジャーの学習モデルでテキスト音声合成を始めたい日本人のAI初学者の方の参考になることがありましたら幸いです。
サンプルコードリンク:
VG-WebUI-TTS-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
*RVC v1モデル対応版
【追記:2023年8月14日 – RVC v2モデル対応版について】
RVC v2モデル対応版のVG WebUIのサンプルコードも公開しました。
RVC v2モデル対応版 – VG WebUIの使い方のサンプルコード(テキスト音声合成用):
v2-VG-WebUI-TTS-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
【Google Colaboratory上のコードの動かし方】
まず始めに、Google Colaboratory上のプログラムを実行するには、
①Googleアカウントでログイン
②ドライブにコピーを保存(VG-WebUI-TTS-for-Japanese-AI-beginners.ipynbのノートブックを保存)
*Google Colaboratoryのメニューから「ファイル – ドライブにコピーを保存」
を実行し、お好きな名前に変更後に以下のコードを実行していきます。
コードの実行は、
・すべてのセルを実行
*Google Colaboratoryのメニューから「ランタイム – すべてのセルを実行」
をしてもらえば大丈夫です。
ただ、学習モデルのファイルを反映させた状態でVG WebUIを起動させたいので
・「手順3:Googleドライブ内に学習モデルを入れたフォルダを準備」
・【手順4:セットアップ(要GPU)】
の手順を全て実行後に、
・「手順5:VG WebUIの起動」
のコードを実行をすると、アップロードした学習モデルが反映されないエラーを回避できるのではないかと思います。
そのため、手動で、1つずつプログラムを実行していただいた方が確実かもしれません。
また、VG WebUI起動時に学習モデルが反映されない場合は、学習モデルを所定の場所に配置後に、再度VG WebUIを起動してみてください。
サンプルコード「VG-WebUI-TTS-for-Japanese-AI-beginners.ipynb」のライセンス:
The MIT License
Copyright 2023 child programmer
Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:
The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
VG WebUIの起動方法:
最終更新 – 2024年7月28日
【手順1:学習モデルの作成】
事前に、RVC WebUIで学習モデルを作成しておきます。
RVC WebUIの使い方がわからない場合は、こちらのチュートリアル動画をご活用ください。
RVC WebUIのチュートリアル動画:
【現代の魔法】RVC WebUIの使い方入門:オリジナルAIボイスチェンジャーを作ろう(男性・女性の声)RVC WebUI – AI Voice Changer Tutorial by RehbC – デジタルで、遊ぶ。(YouTube動画)
【手順2:Googleドライブのマウント】
Google Drive上のフォルダ・ファイルを使えるようにします。
以下のコードを実行後に、許可を求められるのでGoogle DriveのGoogleアカウントで「許可」をします。
実行コード
from google.colab import drive
drive.mount('/content/drive')
【手順3:Googleドライブ内に学習モデルを入れたフォルダを準備】
Google Drive の「MyDrive」内に
・「amitaro」
というRVC WebUIで作成した学習モデルなどが入っているフォルダを用意します。
【フォルダ構造】
amitaro
|— amitaro.pth
|— added.index
|— total_fea.npy
*「amitaro.pth」という名前の学習データを使う場合の例
*「Retrieval-based-Voice-Conversion-WebUI」のフォルダの「weights」フォルダ内にある「〜.pth」という名前のファイルをダウンロードします
*「Retrieval-based-Voice-Conversion-WebUI」のフォルダの「logs」内の「added〜.index」のファイルをダウンロードします。ダウンロード後に「added〜.index」という名前のファイルを、「added.index」という名前に変更しておきます
*「Retrieval-based-Voice-Conversion-WebUI」のフォルダの「logs」内の「total_fea.npy」のファイルをダウンロードします
*RVC WebUIのチュートリアル動画を視聴いただくと、各ファイルのある場所がわかると思います
Google Driveにアップロード完了後
・「models」フォルダ内
*「models」フォルダの場所:「/voice-generator-webui/vc/models」(「voice-generator-webui」のフォルダの「vc」フォルダ内に「models」という名前のフォルダがあります)。1つ1つコードを実行する場合、前後しますが「手順4:セットアップ」のプログラムが実行後に確認できるようになります
*「すべてのセルを実行」した場合には、「手順4:セットアップ」のプログラムが実行後に「voice-generator-webui」というフォルダが確認できるようになります
に、「amitaro」フォルダ(学習モデルなどが入っているフォルダ)を移動させます。
【手順4:セットアップ(要GPU)】
以下のコマンドでGPUの確認ができない場合には、Google Colaboratoryのメニューから
・「ランタイム – ランタイムの変更 – ハードウェア アクセラレータ」
で「GPU」を選択後に、保存し、再度コードを実行してみてください。
実行コード
!nvidia-smi
!nvcc -V
!free -h
# 2024年7月28日時点:「fairseq 0.12.2 depends on omegaconf<2.1」などのエラー対策としてGoogle Colaboratoryのpipバージョンpip==24.1.2をダウングレード
!python3 -m pip install --upgrade pip==22.3
# 2024年7月28日時点:omegaconfのバージョン指定
!pip3 install omegaconf==2.0.6
# 2024年7月28日時点:typeguard関連のエラー・「Cannot install fairseq and fairseq==0.12.2」対策
!pip3 install typeguard==3.0.2 inflect==6.0.5 albumentations==1.3.1 albucore==0.0.5
# 2024年7月28日時点:PyTorchのバージョンを2.0.0にダウングレード+依存関係の調整(2024年7月28日時点:torch 2.3.1+cu121)
!pip3 install torch==2.0.0 torchtext==0.15.1 torchvision==0.15.1 torchaudio==2.0.1
!pip3 uninstall -y cmake
!wget https://github.com/Kitware/CMake/releases/download/v3.22.1/cmake-3.22.1-linux-x86_64.tar.gz
!tar xf cmake-3.22.1-linux-x86_64.tar.gz
!rm cmake-3.22.1-linux-x86_64.tar.gz
!PATH=$PATH:/content/cmake-3.22.1-linux-x86_64/bin
import os
os.environ["PATH"] += ":/content/cmake-3.22.1-linux-x86_64/bin"
!apt-get install espeak
# 2024年7月28日時点:エラー「No module named 'langchain_community'」対策で「langchain」の最新版を利用に変更・「langchain-community」のインストールを追加
!pip3 install langchain langchain-community
# 2024年7月28日時点:エラー「pydantic-core 2.19.0 requires typing-extensions!=4.7.0,>=4.6.0,」「ImportError: cannot import name 'cast' from 'typing_extensions'」対策で「typing-extensions==4.5.0」を「typing-extensions==4.7.1」へ変更
!pip3 install kaleido cohere openai tiktoken typing-extensions==4.7.1 fastapi python-multipart uvicorn tensorflow-probability==0.20.1 gradio==3.34.0 tensorboardX
!git clone https://github.com/log1stics/voice-generator-webui
%cd voice-generator-webui
folder = r"/content/voice-generator-webui/vc/models"
if not os.path.exists(folder):
os.mkdir(folder)
!chmod +x setup.sh
!./setup.sh
2024年7月28日確認時点で【手順4:セットアップ(要GPU)】を実行すると:最後に以下の出力
# 出力結果
performance hint: core.pyx:7:5: Exception check on ‘maximum_path_each’ will always require the GIL to be acquired.
Possible solutions:
1. Declare ‘maximum_path_each’ as ‘noexcept’ if you control the definition and you’re sure you don’t want the function to raise exceptions.
2. Use an ‘int’ return type on ‘maximum_path_each’ to allow an error code to be returned.
performance hint: core.pyx:38:6: Exception check on ‘maximum_path_c’ will always require the GIL to be acquired.
Possible solutions:
1. Declare ‘maximum_path_c’ as ‘noexcept’ if you control the definition and you’re sure you don’t want the function to raise exceptions.
2. Use an ‘int’ return type on ‘maximum_path_c’ to allow an error code to be returned.
performance hint: core.pyx:42:21: Exception check after calling ‘maximum_path_each’ will always require the GIL to be acquired.
Possible solutions:
1. Declare ‘maximum_path_each’ as ‘noexcept’ if you control the definition and you’re sure you don’t want the function to raise exceptions.
2. Use an ‘int’ return type on ‘maximum_path_each’ to allow an error code to be returned.
が出ますが、VG WebUIは、そのままの状態でも使えるようでした。
【手順5:VG WebUIの起動】
ウェブインターフェース上で、テキスト音声合成を実施します。
以下のコードを実行後に表示される
Running on public URL: https://〜.gradio.live
のURLをクリックするとVG WebUIが使えます。
学習モデルが反映されない場合には、再度こちらのコードを実行してみてください。
*2023年4月24日に何度か試したところ、public URLのサーバーの混雑具合か分かりませんが、アクセスできない事象も確認しています。また、日を置いて状況を確認していきます。
→ アクセス過多による「https://〜.gradio.live」のサーバーが混雑またはダウンしているのか?Google ColaboratoryのGPUの割り振りの問題か?どちらが原因だったのか分かりませんが、使えるようになっていました。
実行コード
!python3 webui.py --colab
2024年7月28日確認時点で【手順5:VG WebUIの起動】を実行すると 「Running on public URL」の前に、以下の出力
# 出力結果
/usr/local/lib/python3.10/dist-packages/langchain/__init__.py:30: UserWarning: Importing LLMChain from langchain root module is no longer supported. Please use langchain.chains.LLMChain instead.
warnings.warn(
/usr/local/lib/python3.10/dist-packages/langchain/chat_models/__init__.py:33: LangChainDeprecationWarning: Importing chat models from langchain is deprecated. Importing from langchain will no longer be supported as of langchain==0.2.0. Please import from langchain-community instead:
`from langchain_community.chat_models import ChatOpenAI`.
To install langchain-community run `pip install -U langchain-community`.
がありますが、特に何も対策しなくてもVG WebUIは使えるようでした。
VG WebUIの使い方:サンプル音声モデルデータ編
「Generate」のタブをクリックし、以下のように設定します。
(一例です)
*2023年4月25日時点で新たにスピード調整機能「Speed」が追加されたようです。
「1」を基準に「0」に近づくほど遅い発話速度になり、「2」に近づくほど発話速度が上がります。
Text:
(テキスト音声合成をしたいテキストを入力します)
数十年後にAIの歴史を振り返った時、2023年は音声AIの普及にとって、ターニングポイントとなった年だと認識されているだろう。
(日本語の例文)
Text:
(テキスト音声合成をしたいテキストを入力します)
Decades from now, when we look back on the history of AI, the year 2023 will be recognized as a turning point for the spread of voice AI.
(英語の例文)
Languages:
(テキスト音声合成で出力したい言語)
ja
*日本語の場合の設定
*英語の場合には「en」を設定
Speaker:
(お好きなスピーカー・話者の音声データを指定します)
女007_125Hz-390Hz
Voice Conversion:
(音声変換:オリジナルのAIボイスチェンジャーを利用するか選択)
No conversion
(AIボイスチェンジャーを使わない設定)
設定ができたら、
・「Generate From Text」
(テキスト音声合成を実行)
をクリックします。
・「Output Audio」
(テキスト音声合成結果)
のところで、三角の再生ボタンをクリックすると音声を確認できます。
続いて、用意した、AIボイスチェンジャーの学習モデルを使って、テキスト音声合成を実施してみましょう。
【追記:2023年4月27日】
2023年4月24日時点で、開発者の方が、日本語の音素とアクセントの変更方法についてのドキュメントを公開してくださっています。
ボイスチェンジした音声を出力後に、日本語の音素とアクセントを調整したい場合などに参考にしてみてください。
:日本語の音素・アクセントに関して – log1stics/voice-generator-webui | GitHub
【追記:2023年5月21日】
2023年5月20日に、テキスト音声合成でお馴染みの「ESPnet」(End-to-end speech processing toolkit:End-to-End音声処理ツールキット)による生成音声をRVC WebUIで作成した学習モデルで変換できる機能が追加されました。開発者の方によると「活舌・ラ行のテキスト音声合成の精度向上」が期待できるとのことです。
:ESPnet – log1stics/voice-generator-webui | GitHub
VG WebUIの使い方:AIボイスチェンジャー編
「Generate」のタブをクリックし、以下のように設定します。
(一例です)
*2023年4月25日時点で新たにスピード調整機能「Speed」が追加されたようです。
「1」を基準に「0」に近づくほど遅い発話速度になり、「2」に近づくほど発話速度が上がります。
Text:
(テキスト音声合成をしたいテキストを入力します)
数十年後にAIの歴史を振り返った時、2023年は音声AIの普及にとって、ターニングポイントとなった年だと認識されているだろう。
(日本語の例文)
Text:
(テキスト音声合成をしたいテキストを入力します)
Decades from now, when we look back on the history of AI, the year 2023 will be recognized as a turning point for the spread of voice AI.
(英語の例文)
Languages:
(テキスト音声合成で出力したい言語)
ja
*日本語の場合の設定
*英語の場合には「en」を設定
Speaker:
(お好きなスピーカー・話者の音声データを指定します)
女007_125Hz-390Hz
Voice Conversion:
(音声変換:オリジナルのAIボイスチェンジャーを利用するか選択)
amitaro
(AIボイスチェンジャーを使う設定)
*「amitaro」という学習モデル(「amitaro.pth」)を使う場合の設定例
VC Setteings:
(音声変換の各種設定選択)
Pitch:
(ピッチ・キーの設定)
0
*女性の声から女性の声に変換する場合や、男性の声から男性の声などに変換する場合などと、声のキーがほとんど変わらない場合には「0」に指定。
*女性の声から男性の声に変換する場合には、キーを下げるために「-12」に指定。(一例)
*男性の声から女性の声に変換する場合には、キーを上げるために「12」に指定。(一例)
Pitch Method pm: speed-oriented, harvest: accuracy-oriented:
(ピッチメソッド – pm:スピード重視・harvest:正確さ重視)
harvest
*お好みに応じて「pm」または「harvest」を選択してください
設定ができたら、
・「Generate From Text」
(テキスト音声合成を実行)
をクリックします。
・「Output Audio」
(テキスト音声合成結果)
のところで、三角の再生ボタンをクリックすると音声を確認できます。
音声を保存したい場合には、
「Output Audio」の右側にある点々マークをクリックするとダウンロードできるようになります。
【追記:2023年4月27日】
2023年4月24日時点で、開発者の方が、日本語の音素とアクセントの変更方法についてのドキュメントを公開してくださっています。
ボイスチェンジした音声を出力後に、日本語の音素とアクセントを調整したい場合などに参考にしてみてください。
:日本語の音素・アクセントに関して – og1stics/voice-generator-webui | GitHub
試してみた感じでは、元々準備されているスピーカーの方を変えると、ボイスチェンジした音声が変わってくるようでしたので、お好みの声に変換できるかどうか?色々と試行錯誤してみてください。
時に英語に変換する場合には、キーの高さの変更やピッチメゾッドの違いによって声の聞き取りやすさに違いが現れてくるようでした。
初めてテキスト音声合成を実施する際には、一連の手順に少し迷うかと思いますが、一度、操作方法を確認できれば、次からは大丈夫そうですね。
このような便利なプログラムを公開してくださった開発者の方に感謝です。
VG WebUI Q&A集:チュートリアル動画へのコメントと対応例
– 最終更新:2024年4月7日
VG WebUI Q&A集
– エラー&対応例:NameError: name ‘vc’ is not defined
– 現象 –
サンプル音声でのテキスト音声合成の出力はできるが、RVC WebUIで作成した学習モデルを使って音声変換しようとすると
・「NameError: name ‘vc’ is not defined」
というエラーが出てしまう。
– 回答 –
【①「NameError: name ‘vc’ is not defined」について】
まず、
・NameError: name ‘vc’ is not defined
(「vc」という名前が定義されていません)
というエラー表示のため、
・学習モデル(pthファイル)が反映されていないのでは?
と思い、本来の学習モデルなどを入れたフォルダの構造
amitaro
|— amitaro.pth
|— added.index
|— total_fea.npy
から、中身のファイルを無くした状態の空のフォルダ
amitaro
|— 中身のファイルがない状態
のみを「models」フォルダ内に入れたところ、
・「サンプル音声でのテキスト音声合成の出力はできるが、RVC WebUIで作成した学習モデルを使って音声変換しようとするとエラーが出てしまう」
が再現されるようでした。
【②確認事項と対応例】
はじめに確認することとして、Google Colaboratory上のファイル閲覧機能(ファイルマークをクリック後に起動する左側の枠の所)のところで、学習モデルなどを入れたフォルダ
例:フォルダ名
・amitaro
*学習モデル(例:amitaro.pthファイルの場合)と同じ名前のフォルダ
の左側に表示されている▶︎(三角)マークをクリックして、中身を閲覧できるようにした際(▼の表示になります)に
・学習モデルのファイル(〜.pth)
*動画の場合は「amitaro.pth」
などが閲覧できる状態になっているか?
確認してみてください。
ここの状態で、何も表示されていない場合、何かしらの理由でファイルがGoogle Colaboratory上にアップロード(反映)できていない可能性が考えられます。
これまでに情報を教えていただいた方の中には、
・フォルダは反映されるが、中身のファイルがない
という事象を経験された方もいるようでした。
上記の事象の解決例としては、
・Google Driveの設定でアップロードしたファイルにアクセス制限がかかっている
可能性が考えられます。
特に、
・Google ColaboratoryでログインしているGoogleアカウント
と、
・Google Driveに許可を与えたGoogleアカウント
が違う場合、起こりやすいのではないかと思います。
また、現在Google Colaboratoryにログインしているアカウント以外の、Googleアカウントにアクセス権が付与されている場合も考えられます。
そのため、一度、
・Google Drive上にアップロードしているファイルのアクセス権が、現在Google ColaboratoryにログインしているGoogleアカウントに付与されているか?
確認してみてください。
【③その他の対応例】
②の方法で解決されない場合には、学習モデルなどを入れたフォルダを圧縮ファイルにして、直接Google Colaboratory上にアップロードさせる方法もあります。
方法としては、まず、学習モデルなどを入れたフォルダ
amitaro
|— amitaro.pth
|— added.index
|— total_fea.npy
*必ず半角英数の学習ファイル(pthファイル)名・フォルダ名にします
の「amitaro」フォルダを「圧縮ファイル」に変換します。
圧縮ファイルへの変換は、フォルダを右クリック後に表示されるメニュー内の「圧縮」などと表示されている所をクリックすると「〜.zip」という名前の圧縮ファイルができると思います。
その後以下の手順を実行します。
注:以下の手順は、ブラウザの種類によっては、実行できません。確認できた範囲では「FireFox」というブラウザではできないようでした。
Google Chromeというブラウザではできることを確認しています。
VG WebUIの起動プログラム(【手順5:VG WebUIの起動】)を停止した状態で、実行する必要があります。
・手順1:
Google Colaboratoryでファイルマークをクリックし、ファイルを確認・操作できる状態にします。
・手順2:
「〜.zip」という圧縮ファイルをGoogle Colaboratoryのファイル操作用の枠内にドラッグ&ドロップします。アップロードが完了するまで時間がかかりますが待ちます。アップロード完了後にファイルに反映されない場合には、ファイルの更新マークをクリックしてください。
手順3:
Google Colaboratoryの上部メニュー内の「+ コード」をクリックします。コードを入力できるようになりますので以下のコードをコピー&ペーストして実行します。
実行コード:
!unzip 〜.zip
*「〜」の所は、学習モデルなどを入れたフォルダの圧縮ファイル名
*例「amitaro.zip」の場合は「!unzip amitaro.zip」
コードを実行(三角マークをクリック)後に、ファイルの更新マークをクリックすると解凍されたフォルダが反映されるのではないかと思います。
その後、動画のように「models」フォルダ内に移動させます。
また、圧縮ファイルのGoogle Colaboratory上へのアップロード方法と解凍方法が、言葉ではイメージしにくい場合には、以下の動画を参照ください。
(圧縮ファイルのファイル名は違いますが、大まかなイメージは掴めるのではないかと思います)
手順4:
VG WebUIの一連の起動コードを実行後に
・【手順5:VG WebUIの起動】
のプログラムを実行します。
尚、一度VG WebUIを起動後に、アップロードしたファイルなどを反映させるには、一度
・【手順5:VG WebUIの起動】
のプログラムを停止させてから、再度実行する必要があります。
VG WebUI Q&A集
– エラー&対応例:NameError: name ‘vc’ is not defined(2024年報告事例)
【2024年1月12日時点】
– 現象 –
学習モデルのファイル名に間違いはなく、学習モデル(pthファイル)も「voice-generator-webui/vc/models/〜.pth」に配置されているが、RVC WebUIで作成した学習モデルを使って音声変換しようとすると
・「NameError: name ‘vc’ is not defined」
というエラーが出てしまう。
– 解決例 –
RVC WebUIで学習させる際に
「Please specify speaker ID」(識別番号)
を違う番号に設定してみる。
詳細は、この記事のチュートリアル動画にコメントくださった「神屋」さんのコメントをご確認ください。
RVC WebUI・VG WebUIの挙動に関して詳しく検証をしてくださいました。
VG WebUI Q&A集
– エラー&対応例:ModuleNotFoundError: No module named ‘espnet2’
– 現象 –
VG WebUIを起動するコードを実行すると
・「ModuleNotFoundError: No module named ‘espnet2’」
というエラーが出てしまい、「public URL」(公開URL)が表示されないので、VG WebUIが使えない。
– 回答 –
【①エラーの理由】
エラー内容:
ModuleNotFoundError: No module named ‘espnet2’
今回のエラーの理由としては、2023年5月20日に、テキスト音声合成でお馴染みの
・ESPnet
(End-to-end speech processing toolkit:End-to-End音声処理ツールキット)
による生成音声をRVC WebUIで作成した学習モデルで変換できる機能が追加されたためのようです。
開発者の方によると
・活舌・ラ行のテキスト音声合成の精度向上
参考:
ESPnetで生成した音声をRVCで変換する機能を追加 – TECH JET 2023年5月20日 | Twitter
が期待されるようです。
【②対応方法】
対応方法は簡単で、
・ESPnetをインストールする
実行コード:
!pip install espnet
だけです。
現時点(2023年5月21日21時20分以降)で公開させていただいているチュートリアルコード
:VG-WebUI-TTS-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
では、エラー対応済みですので、新たに上記のリンク先で
・ドライブにコピーを保存
をしていただき実行してみてください。
VG WebUI Q&A集
– 「Retrieval-based-Voice-Conversion-WebUI」というフォルダが見つからない
VG WebUIのチュートリアル動画内で2つのプログラムを行き来してしまったので、少し混乱している方もいるかもしれませんので、解説しておきます。
まず、学習モデルと関連ファイル
・〜.pth(学習モデル)
・added.index(adde_〜.indexの名前へ変更したもの)
・total _fea.npy
を作成されていない場合には、以下のコード
・RVC WebUIの使い方のサンプルコード(学習モデル作成用):
RVC-WebUI-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
・RVC WebUIのチュートリアル動画:
【現代の魔法】RVC WebUIの使い方入門:オリジナルAIボイスチェンジャーを作ろう(男性・女性の声)RVC WebUI – AI Voice Changer Tutorial by RehabC – デジタルで、遊ぶ。
などで作成して、ご自身のパソコン内にダウンロードしてみてください。
以下のテキスト音声合成を実行するVG WebUIの使い方のサンプルコード
VG WebUIの使い方のサンプルコード(テキスト音声合成用):
VG-WebUI-TTS-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
では、
・「Retrieval-based-Voice-Conversion-WebUI」
というフォルダはありません。
そのため、「Retrieval-based-Voice-Conversion-WebUI」内にある学習モデルと関連ファイル
・〜.pth(学習モデル)
・added.index(adde_〜.indexの名前へ変更したもの)
・total _fea.npy
が必要な場合には、以下のコード
・RVC WebUIの使い方のサンプルコード(学習モデル作成用):
RVC-WebUI-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory
・RVC WebUIのチュートリアル動画:
【現代の魔法】RVC WebUIの使い方入門:オリジナルAIボイスチェンジャーを作ろう(男性・女性の声)RVC WebUI – AI Voice Changer Tutorial by RehabC – デジタルで、遊ぶ。
で事前に作成してください。
Google Colaboratoryのコード
・「↳ 1 個のセルが非表示」
の左横の丸に囲まれた「▷」をクリックするとコードを実行したことになります。
その後、指示に従い、
・「Google Driveに接続」を許可
すると、Google Drive内に事前にアップロードさせている
データセットフォルダ(動画では「amitaro」)
l – 〜.pth(学習モデル)
l – added.index(adde_〜.indexの名前へ変更したもの)
l – total _fea.npy
が、Google Colaboratory上で操作できるようになります。
VG WebUI Q&A集
– エラー&対応例:ローカル環境でUIの起動はできたが、言語を選ぶと「TypeError: Dropdown.__init__() got an unexpected keyword argument ‘render’」となる
【2024年4月7日時点】
【報告エラー】
TypeError: Dropdown.__init__() got an unexpected keyword argument ‘render’
ローカル環境でVG WebUIを実行された方によるエラー報告です。
ブラウザでUIを起動できるも、言語設定をする際に上述のエラーとなるようでした。
必要な依存関係を全てダウンロードし、環境変数の設定も済ませている状態とのことでした。
(おそらくWindowsの方と思われます)
【対応例】
「requirements.txt」のファイルのgradioをバージョンを
・gradio==3.34.0
に指定して実行すると問題が解決されたようでした。
【追記】
その後、モデルを選択するとエラーとなるようでした。
わずか…数秒(3秒)〜10秒程度の音声ファイルでAIボイスチェンジ&テキスト音声合成(TTS)に挑戦
:日本人のためのVALL-E Xの使い方:日本語音声で感情反映型AIボイスチェンジTTS
【音声認識】
:【Python入門】日本語の文字起こしのやり方(音声認識:音声ファイル編)サンプルコード
【音声合成】