【ddPn08版】日本人のためのRVC WebUIの使い方 – AIボイスチェンジャー入門

 

Contents - 目次(もくじ)

【動画で解説】現代の魔法:RVC WebUIの使い方
– だだっこぱんだ🍞さん版のAIボイスチェンジャーを使おう
RVC WebUI(ddPn08 edition)- AI Voice Changer Tutorial

 

 

【ddPn08版】RVC WebUIの使い方入門:オリジナルAIボイスチェンジャーを作ろう

視聴時間:27分32秒

文字情報だけではわかりにくい場合に、だだっこぱんだ🍞(ddPn08)さん版のRVC WebUIを導入前に解説動画をご活用いただけますと幸いです。

 




 

【更新状況:だだっこぱんだ🍞さん版RVC WEbUI】

2023年5月23日
RVC公式の事前学習済みモデルのバージョン2(RVC v2モデル)に対応開始。

公開直後に確認時点では、いくつか注意点もありそうでしたので動画でまとめておきました。

【RVC v2モデル対応編】だだっこぱんださん版 - RVC WebUIの注意点解説RVC v2 model supported ddPn08 Edition AI Voice Change

【RVC v2モデル対応編】だだっこぱんださん版 – RVC WebUIの注意点解説RVC v2 model supported ddPn08 Edition AI Voice Change by RehabC – デジタルで、遊ぶ。(YouTube動画)
8分程度の動画ですので事前に確認いただくと、困らないのではないかと思います。

上記の動画では、

・注意点①:データセットのパスの設定方法
・注意点②:RVC v2設定時に気をつけること
・注意点③:2度目の学習について

について注意点と対応例の手順をまとめておきました。

 

【ddPn08版 – RVC WebUIのチュートリアル動画の内容】

0:00 はじめに
0:55 Google Colaboratoryの使い方
1:39 RVC WebUI起動編:コードの実行
3:02 データセットなどの準備
7:30 Goolge Colaboratoryにファイルが反映されない場合の対処法
8:14 起動までの手順を実行
9:24 RVC WebUI学習編
18:28 RVC WebUIモデル推論編(AIボイスチェンジ)
24:59 続けて、新たな学習モデルを作成する方法
25:29 以前作成した学習モデルで推論する方法例
27:07 最後に

 

【ddPn08版 – RVC WebUIの特徴】2023年5月14日時点

特徴①:
事前学習モデルが

・hubert-base-japanese(ヒューバートベイスジャパニーズ)
*日本語の音声に特化したHuBERT(ヒューバート)

・contentvec(コンテントベック)
*オリジナル版のRVC WebUIで利用

から選べる。

 

特徴②:
768次元のphone embeddingsに対応。

 

 

だだっこぱんだ🍞さん版のRVC WebUIも使いたい!
でも、使い方が分からない・・・

 

 

2023年4月に公開されたAIボイスチェンジャーこと

RVC WebUI:
RVC-Project(旧liujing04)/Retrieval-based-Voice-Conversion-WebUI(The MIT License)| GitHub

の、だだっこぱんだ🍞(ddPn08)さん版のRVC WebUIである

だだっこぱんだ🍞(ddPn08)さん版のRVC WebUI:
ddPn08/rvc-webui(The MIT License)| GitHub

を使いたくても、

一体どうやって使ったらいいのかわからない・・・

などと、悲しい思いをされている方も多いのではないかと思います。
プログラムを使うには、

・機械学習プログラムのルール
・ある程度のファイル構造の理解
・ファイルの指定の仕方

を知らないと、歯が立たないのではないかと察します。

そこで今回は、RVC WebUIに関心のある日本人の方が、AIボイスチェンジャーを気軽に楽しめるようにするために、Windows・Macなどのパソコンの種類を問わずに使えるGoogle Colaboratoryを使ってRVC WebUIを起動し、オリジナルのAIボイスチェンジャーを作る方法(やり方)をまとめておこうと思います。
一連の情報が、だだっこぱんだ🍞(ddPn08)さん版のAIボイスチェンジャーに触れるきっかけになることがありましたら幸いです。

 

【ddPn08 Edition】How to Use RVC WebUI App. (RVC Voice Changer)
Free RVC AI Voice Changer Tutorial for Machine Learning Python-PyTorch Programming: Male & Female(Girl) Voice

 

 

サンプルコードリンク・プログラムのライセンス

 

 

だだっこぱんだ🍞(ddPn08)さん版のRVC WebUIを日本人の方が気軽に試せるように、使い方の解説などを入れたサンプルコードを公開しました。
プログラムの起動方法が分からずにお悩み中の日本人のAI初学者の方の参考になることがありましたら幸いです。

サンプルコードリンク:
RVC-WebUI-ddPn08-Version-for-Japanese-AI-beginners.ipynb(The MIT License)| Google Colaboratory

 

サンプルコード「RVC-WebUI-ddPn08-Version-for-Japanese-AI-beginners.ipynb」のライセンス:

The MIT License

Copyright 2023 child programmer

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

 

 

チュートリアルで使う音声素材ダウンロード

 

 

【チュートリアルで使わせていただいている音声素材について】

自分好みのオリジナルのAIボイスチェンジャーを作る前に、まずは、試しに一連の操作手順を学びたいと思っている方も多いのではないかと思います。
情報を探してみたところボイスチェンジャーの利用の許可をくださっている方もいるようでしたので、チュートリアルでは、以下の音声を学習に活用させていただきました。

 

AIボイスチェンジャー学習用の声(女性の声)の音声素材ダウンロード:
あみたろの声素材(セリフ素材)一括ダウンロード | あみたろの声素材工房
(PCM44,100Hz/16ビット/モノラルのWAV形式)
クレジット:あみたろの声素材工房 https://amitaro.net/

また、「あみたろ」さんの声に変換する前の音声素材は、こちらからダウンロードできるようにしておきましたので、必要に応じてご活用ください。

推論(AIボイスチェンジ)を試す声(男性の声)の音声素材ダウンロード:


(サンプルレート48,000Hz/24ビット/ステレオのWAV形式)

尚、変換する前の音声素材は、こちらの音声から一部抜粋させていただきました。

推論(ボイスチェンジ)を試す用の声素材元:
Kyubyong/css10(Apache-2.0 license)| GitHub

 

 

【だだっこぱんだ🍞(ddPn08)さん版】RVC WebUIの起動方法・導入方法

 

 

【手順1:GPUの確認】

 

 

以下のコマンドでGPUの確認ができない場合には、Google Colaboratoryのメニューから

ランタイム – ランタイムの変更 – ハードウェア アクセラレータ

で「GPU」を選択後に、保存し、再度コードを実行してみてください。

実行コード

!nvidia-smi
!nvcc -V
!free -h

 

出力結果

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   51C    P8    10W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0
              total        used        free      shared  buff/cache   available
Mem:           12Gi       636Mi       9.0Gi       1.0Mi       3.1Gi        11Gi
Swap:            0B          0B          0B

 

 

【手順2:Google Driveのマウント】

 

 

Google Drive上のフォルダ・ファイルを使えるようにします。
以下のコードを実行後に、許可を求められるのでGoogle DriveのGoogleアカウントで「許可」をします。

実行コード

from google.colab import drive
drive.mount('/content/drive')

 

 

【手順3:Google Drive内にデータセットと音声変換させたい音声ファイルを準備】

 

 

Google Drive の「MyDrive」内に

・「dataset

というボイスチェンジしたい音声ファイルが入っている学習予定のデータセットフォルダを用意します。
また、推論(音声変換)を試してみたい音声ファイル(WAV形式 or MP3形式)もアップロードしておきます。

 

【フォルダ構造】

RVC WebUの学習データのデータセットのファイル・フォルダ

dataset
 |— 〜1.wav
 |— 〜2.wav
 |— 〜3.wav
 |— 〜4.wav
 ・
 ・
 ・
 |— 〜10.wav

 

*一例として、「dataset」フォルダ内には短文(句点。までの文章)で区切ったWAV形式(またはMP3形式)の音声ファイルをいくつか入れておきます。
*チュートリアルでは「1〜3秒」の「10個」の音声ファイルで学習していますが、本格的に音声変換したい方は、音声ファイル数を増やし、学習回数(Epoch数)を調整してみてください。

 

学習させる音声ファイルを作るには、

・Audacity

などの音声編集アプリを使う方法を散見しました。
各データセットの音声ファイルの長さを、どの程度にしようか?と迷うところですが、製作者の説明では

“Use less than 10 minutes vocal to fast train a voice conversion model!”
(10分未満の音声を使用して、音声変換モデルを高速トレーニングします。 )

とのことでした。
インターネット上で関連情報を調べてみたり、現在配布されている音声コーパスなどをみてみると

・1ファイルあたり、数秒程度の音声

のようでしたので、RVC WebUIの使い方をある程度覚えてから、色々と試行錯誤してみてください。

 

 

【手順4:重複ファイル名の変換】

 

 

データセット(「dataset」フォルダ)内の重複ファイル名を変更します。

実行コード

!ls -a /content/drive/MyDrive/dataset
!rename 's/(\w+)\.(\w+)~(\d*)/$1_$3.$2/' /content/drive/MyDrive/dataset/*.*~*

 

 

【手順5:ddPn08版RVC WebUIのリポジトリをクローン】

 

 

GitHubから「ddPn08/rvc-webui」のプログラムをGoogle Colaboratoryにコピーします。

実行コード

%cd /content/
repository_url = "https://github.com/ddPn08/rvc-webui.git"  
webui_branch = "main"

! git clone {repository_url}
%cd /content/rvc-webui

 

 

【手順6:環境の初期化】

 

 

実行コード

import os

conda_dir = "/opt/conda"
conda_bin = os.path.join(conda_dir, "bin", "conda")

if not os.path.exists(conda_bin):
    ! curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    ! chmod +x Miniconda3-latest-Linux-x86_64.sh
    ! bash ./Miniconda3-latest-Linux-x86_64.sh -b -f -p {conda_dir}
    ! rm Miniconda3-latest-Linux-x86_64.sh

def run_script(s):
    ! {s}

def make_args(d):
    arguments = ""
    for k, v in d.items():
        if type(v) == bool:
            arguments += f"--{k} " if v else ""
        elif type(v) == str and v:
            arguments += f"--{k} \"{v}\" "
        elif v:
            arguments += f"--{k}={v} "
    return arguments

if os.path.exists("requirments.txt"):
    ! mv requirments.txt requirements.txt

 

 

【手順7:依存関係などのインストール & RVC WebUIの起動】

 

 

ウェブインターフェース上で、学習や推論(音声変換)を実施します。
以下のコードを実行後に表示される

Running on public URL: https://〜.gradio.live

のURLをクリックするとddPn08版RVC WebUIが使えます。

実行コード

run_script(f"""
eval "$({conda_bin} shell.bash hook)"
python launch.py --share --host 0.0.0.0 --port 41130
""")

 

 

【ddPn08版】RVC WebUIの使い方:学習編
(データセットで学習モデル作成)- Training

 

【ddPn08・だだっこぱんださん版】RVC WebUIの使い方:学習編(Training)の設定例 - AIボイスチェンジャー
*画像をクリックすると拡大されます。以下の説明で例示している設定になっています。必要に応じて参考にしてみてください。

 

Training」のタブをクリックし、以下のように設定します。
(一例です)

 

Model Name:
(出力される学習モデルの名前)
amitaro

 

Ignore cache:
(キャッシュを無視するか?)
チェックなし

 

Dataset glob:
(学習させるデータセットフォルダのパスを指定)
/content/drive/MyDrive/dataset
*Google Driveの「MyDrive」内に「dataset」というデータセットフォルダを配置した場合の例

Recursive:
(ファイル読み込みの設定)
チェックを入れる
*注:ここのチェックを外した状態で、「Dataset glob:/content/drive/MyDrive/dataset」の設定にすると「Exception: No audio files found」というエラーになります。
対応方法例としては、「Dataset glob:」(学習させるデータセットフォルダのパスを指定)の設定を「/content/drive/MyDrive/dataset/*.wav」にすると、うまくファイルを読み込めるようでした。

 

Multiple speakers:
(複数の話者かどうか)
チェックを外す
*一例
*2023年5月のアップデートで「複数話者に対応した学習」もできるようになったようです。

 

Speaker ID:
(識別IDの設定)
0
*推論の際に識別できるように、識別IDを指定しておきます。1度学習後に、新たに違う設定で学習させたい場合には、ここの数値を変更するようにします。

 

Model version:
(RVC公式の事前学習済みモデルのバージョンを指定)
v1

 

Target sample rate:
(サンプリングレート)
48k
*一例
*基本的には音声ファイルのサンプリングレートに合わせますが、チュートリアルでは試しに「48k」にしてみました。
*注:2023年5月24日時点では「Model version:」(RVC公式の事前学習済みモデルのバージョンを指定)の設定を「v2」にした場合には「40k」に指定する必要があります。(2023年5月24日時点では、40kHz対応の事前学習済みモデルのv2しか公開されていないため)
32k」「48k」にした場合には、以下のエラーが出力されるようでした。

エラー出力:

RuntimeError: Error(s) in loading state_dict for SynthesizerTrnMs256NSFSid:

 

f0 Model:
(f0モデルの設定)
yes
*f0とは、基本周波数のことをさしているようです。
おそらくですが、ここの設定を「yes」にすると、「ピッチありのモデル」になり。「no」に設定すると、「ピッチレスモデル」になるのではないかと思われます。
音質の精度を求めている方や、リアルタイムボイスチェンジを予定されている方、そして、楽曲から抽出したボーカルの音声の変換を予定されている方などは、「ピッチありのモデル」にするために、ここの設定を「yes」にするようにします。
リアルタイムボイスチェンジ時の難点としては、「ピッチありのモデル」の場合には、精度が良い代わりに、パソコンに負荷をかけるようです。そのため、精度よりも遅延の影響を気にされる方は、ここの設定を「no」にして、「ピッチレスモデル」にすることも検討してみてください。

 

Using phone embedder:
(phone embedderの設定)
contentvec
*事前学習モデルを選択します。チュートリアル動画撮影時点では、2023年4月に公開された「hubert-base-japanese」という、日本語の音声に特化したHuBERTモデルと、「contentvec」というモデルを選択できるようでした。
動画撮影時点では、リアルタイムボイスチェンジャーでお馴染みの「VC Client」は、「hubert-base-japanese」への対応は、アルファ版(テスト版)として実装してくださっているようですので、時間に余裕のある方は、どちらの事前学習モデルだとリアルタイム音声変換の際に、自分の目指している音質になるのか?色々と試してみてください。

 

Embedding channels:
(次元数の設定)
768
*精度を求める場合には、「768次元」の方が良いようです。
動画撮影時点では、「VC Client」での対応状況が、いまいち分かりませんでしたので、リアルタイムボイスチェンジをされる方は「768次元」でうまくいかない場合には、「256次元」で学習させてください。

 

Embedding output layer:
(出力層の設定)
12
*一例

 

GPU ID:
(GPUのID)
0
*一例
*初期状態の「0」のままでも使えました。

 

Number of CPU processes:
(CPUプロセス数)
2
*一例

 

Normalize audio volume when preprocess:
(前処理として音声のボリュームを正規化するかどうか?)
yes

 

Pitch extraction algorithm:
(ピッチ抽出アルゴリズム)
harvest
*処理を高速化するには、「pm」を選択します。高品質の音声を処理するには、やや速度が遅くなりますが、「dio」を選択します。最高の品質で処理をしたい場合には、最も処理が遅くなりますが、「harvest」を選択します。

 

Batch size:
(バッチサイズ)
3
*一例
*学習するデータセットをどの程度の一回あたりの処理量にするか?指定します。
注意点としては、GPUメモリが多い場合には、ここの数値を大きくすると、過学習が予防できるようです。ただ、Google Colaboratoryの無料枠で実行する場合、膨大な量のデータセットで学習させる際などに、あまり大きな数値にすると、メモリが足りなくなりエラーとなるリスクも考えられますので、途中でエラーとなる方などはここの数値を試行錯誤してみてください。

 

Number of epochs:
(学習回数 – エポック数)
10
*一例
*時間に余裕がある方は学習回数を増やすと音声変換の質が向上するかもしれません。音声変換の質を向上させたい場合には、「音声ファイル数」や「音声の時間」を増やしてみてください

 

Save every epoch:
(学習の状況の保存頻度)
5
*一例
*注意点としては、Google Colaboratoryの無料枠で実行する場合、学習回数を多くした場合に、保存頻度の設定が小さい数値だと、何回も途中経過の学習モデルのファイルが保存されることになり、ディスク容量を圧迫してしまい、無料枠だけでは学習を終わらせることができない可能性も考えられますので、こちらの数値も、残りのディスク容量に応じて微調整してみてください。

 

Cache batch:
(キャッシュバッチ)
チェックなし
*チェックを入れると、高速化されるようです。

 

FP16:
(エフピー16)
チェックなし
*「16ビットの浮動小数点数フォーマット」でデータ量を削減するかどうかを設定できるようです。
そのため、チェックを入れると軽量化と、高速化されるようです。ただ、データ量を削減するので品質は低下するようです。

 

Pre trained generator path:
(事前学習生成器のパス)
/content/rvc-webui/models/pretrained/f0G48k768.pth
*各種設定状況に応じて自動的に設定されます。

 

Pre trained discriminator path:
(事前学習弁別器・識別器のパス)
/content/rvc-webui/models/pretrained/f0D48k768.pth
*各種設定状況に応じて自動的に設定されます。

 

設定ができたら

学習開始:Trainボタンをクリック

Train
(学習開始)

のボタンをクリックします。

 

しばらくすると以下のような表示になります。

 

RCV WebUI上の出力結果
*「Status」の出力

学習完了:Training completed

Training completed(学習完了)

 

RVC-WebUI-ddPn08-Version-for-Japanese-AI-beginners.ipynb上の出力結果
*【手順7:依存関係などのインストール & RVC WebUIの起動】の出力

4% 2/50 [00:24<08:38, 10.80s/it, epoch=1, loss_d=3.85, loss_g=43.3, lr=0.0001, use_cache=0]2023-05-14 12:50:56 | INFO | torch.nn.parallel.distributed | Reducer buckets have been rebuilt in this iteration.
 50% 25/50 [00:38<00:14,  1.68it/s, epoch=5, loss_d=1.78, loss_g=49.1, lr=0.0001, use_cache=0]Saving model and optimizer state at epoch 5 to /content/rvc-webui/models/training/models/amitaro/state/G_5.pth
Saving model and optimizer state at epoch 5 to /content/rvc-webui/models/training/models/amitaro/state/D_5.pth
save: emb_name: contentvec 768
100% 50/50 [01:03<00:00,  1.66it/s, epoch=10, loss_d=1.85, loss_g=40.1, lr=9.99e-5, use_cache=0]Saving model and optimizer state at epoch 10 to /content/rvc-webui/models/training/models/amitaro/state/G_10.pth
Saving model and optimizer state at epoch 10 to /content/rvc-webui/models/training/models/amitaro/state/D_10.pth
save: emb_name: contentvec 768
Training is done. The program is closed.(学習が実行されました。プログラムを終了します。)

 

出力された学習モデルは、Google Colaboratory上でダウンロードできます。
models」フォルダの「checkpoints」フォルダ内に

学習モデルの保存場所:modelsフォルダのcheckpointsフォルダ内

・「amitaro.pth
*「Model Name:」(出力される学習モデルの名前)で「amitaro」という名前に設定した場合の例

という学習モデルが出力されています。
必要に応じてローカル環境(自分のパソコン)にダウンロードして、リアルタイムボイスチェンジなどに挑戦してみてください。

AIを利用したリアルタイムボイスチェンジャーのクライアントソフトウェアVC Client:
w-okada/voice-changer(The MIT License)| GitHub

AIボイスチェンジャーの学習モデルを使ったテキスト音声合成:
VG WebUIの使い方:AIボイスチェンジャー(RVC WebUI)の学習モデルでテキスト音声合成(テキストの音声読み上げ:TTS – Text to Speach)入門
*記事では、index形式・npy形式のファイルも使って解説していますが、pth形式の学習モデルだけでもテキスト音声合成ができます。

 

2023年5月23日のRVC v2モデル対応の更新後に確認できた事象として、一度学習を実施後に、再度学習をさせると以下のようなエラーが出力されるようでした。

エラー出力:

raise RuntimeError("trying to initialize the default process group " "twice!")

対応例としては、「手順7:依存関係などのインストール & RVC WebUIの起動」のプログラムを一度停止後に、再度、実行した時に表示される「public URL」をクリックし、新たにRVC WebUIを起動させると、新たな学習ができるようでした。

 

 

【ddPn08版】RVC WebUIの使い方:モデル推論編(音声変換)
– Inference

 

【ddPn08・だだっこぱんださん版】RVC WebUIの使い方:モデル推論編(Inference)の設定例 - AIボイスチェンジャー
*画像をクリックすると拡大されます。以下の説明で例示している設定になっています。必要に応じて参考にしてみてください。

 

Inference」(モデルの推論)のタブをクリックし、以下のように設定します。
(一例です)

 

学習モデルのリストの更新 - ddPn08版 RVC WebUIの使い方

上記のボタンをクリック後に

Modelで学習モデルが選択可能になる - ddPn08版 RVC WebUIの使い方

Model:
(学習モデル)
amitaro.pth
*学習の際に「Model Name:」(出力される学習モデルの名前)を「amitaro」にした場合の例

が設定できるようになります。

 

Speaker ID:
(識別IDの設定)
0
*学習の際の識別IDに合わせます。

 

Source Audio:
(ボイスチェンジする音声ファイルの指定)
/content/drive/MyDrive/originalvoice.wav
*Google Driveの「MyDrive」内に「originalvoice.wav」という音声ファイルを配置した場合の例

 

Out folder:
(ボイスチェンジ後の音声ファイルの出力先を指定)
content/rvc-webui/outputs
*何も入力しない状態の設定。
outputs」フォルダ内に音声ファイルが出力されます。

 

Transpose:
(変調)
12
*ボイスチェンジ時に推奨されることとして、男性から女性への音声変換は「+ 12キー」、女性から男性への音声変換は、「– 12キー」にすることが推奨されているようです。
声の高さが同じ声質の場合には、設定を「0」にします。声のキーが高い女性の声にする場合には、12キーよりもさらに上げてもいいかもしれません。

 

Pitch extraction algorithm:
(ピッチ抽出アルゴリズム)
harvest
*処理を高速化するには、「pm」を選択します。高品質で処理をしたい場合には、処理が遅くなりますが、「harvest」を選択します。

 

Embedder Model:
(Embedderモデル)
auto
*学習の際に「Using phone embedder:」(phone embedderの設定)で設定したモデルを選択します。
auto」にすると、自動的に「hubert-base-japanese」か?「contentvec」か?を判別してくれます。

 

Embedder Output Layer:
(Embedderの出力層)
auto
*学習の際に「Embedding output layer:」(出力層の設定)で設定した層の数を選択します。
auto」にすると、自動的に「9」か?「12」か?を判別してくれます。

 

Auto Load Index:
(自動的にindex形式ファイルなどを取得)
チェックなし
*チュートリアル動画では、ここの機能を使っていませんが、ここにチェックを入れると自動的に「index形式ファイル」と「npy形式ファイル」のパスを取得してくれる便利な機能です。

 

Faiss Index File Path(Faissインデックスファイルのパスを設定)- ddPn08版 RVC WebUIの使い方

Faiss Index File Path:
(Faissインデックスファイルのパスを設定)
/content/rvc-webui/models/checkpoints/amitaro_index/amitaro.0.index
(一例です)
*Faiss(Facebook AI Similarity Search):Facebookが開発した近似最近傍検索ライブラリ
*学習の際に「Model Name:」(出力される学習モデルの名前)を「amitaro」にした場合の例
*「rvc-webui」のフォルダの「models」フォルダの「checkpoints」フォルダの「amitaro_index」フォルダ内の「〜.index」のファイルのパスをコピー後に入力欄に貼り付けてください

 

Big NPY File Path(Big NPYファイルのパスを設定)- ddPn08版 RVC WebUIの使い方

Big NPY File Path:
(Big NPYファイルのパスを設定)
/content/rvc-webui/models/checkpoints/amitaro_index/amitaro.0.big.npy
(一例です)
*学習の際に「Model Name:」(出力される学習モデルの名前)を「amitaro」にした場合の例
*「rvc-webui」のフォルダの「models」フォルダの「checkpoints」フォルダの「amitaro_index」フォルダ内の「〜.npy」のファイルのパスをコピー後に入力欄に貼り付けてください
*2023年5月23日の更新で、ここの機能は廃止されました。

 

Retrieval Feature Ratio:
(検索特徴率)
1
*検索特徴率ということのようですが、よく分かりませんでしたので、そのまま「1」にしておきました。
何回か試した範囲の感じでは、比率を「0」に近づけるほど品質が低下するように感じました。

 

設定が完了したら

Infer(推論を開始)- ddPn08版 RVC WebUIの使い方

Infer
(推論を開始)

のボタンをクリックします。

数秒〜20秒ほどで推論完了。
1〜3秒ほどのファイル10個で学習させただけでしたが、聞いてみると女性っぽい声に変換されていました。また、声の高さに関しては、変換したい声質に応じてキーの調整が必要そうでした。
さらに音声変換の品質を向上させるには、ファイル数や学習回数を増やす必要はありそうです。

今回の使い方を参考にしつつ、試行錯誤しながらオリジナルのボイスチェンジャーを作成してみてください。
尚、出力された音声ファイルは

ボイチェン後の音声のダウンロード方法 - ddPn08版 RVC WebUIの使い方

Output
(出力された音声 – 右下隅の3つのドット、クリックしてダウンロード)

のところでダウンロードできます。
その他にも、

outputs
*推論の際の「Out folder:」(ボイスチェンジ後の音声ファイルの出力先を指定)の設定で、何も指定しなかった場合の例

フォルダ内に以下の

推論:outputsフォルダ内にwavファイルが出力 - ddPn08版 RVC WebUIの使い方

・「1-amitaro-originalvoice.wav」(ファイル例)

のようなファイル名で保存されますので、必要に応じてローカル環境(自分のパソコン)にダウンロードして使ってみてください。
また、新たに推論をさせるとファイルが追加されていきます。

 

動画チュートリアル作成時点では、だだっこぱんだ🍞(ddPn08)さん版のRVC WebUIでは、日本語に特化した事前学習モデルを始め、学習させるために色々なパラメータを指定できるようにしてくださっているので、ボイスチェンジの高みを目指している方にとっては、ありがたいですね。

また、RVC WebUIを、日本人の方向けに独自に調整したプログラムを公開してくださっている、だだっこぱんだ🍞(ddPn08)さんと、だだっこぱんだ🍞(ddPn08)さんの支援者の皆さんに感謝です。

 

 

(予定)【だだっこぱんだ🍞(ddPn08)さん版】RVC WebUIの解説動画へのコメントと対応例など

 

 

何かコメントなどをいただけるようでしたら、こちらに回答例などをまとめていきます。

 

 

だだっこぱんだ🍞(ddPn08)さんにコンタクト・支援

 

 

だだっこぱんだ🍞(ddPn08)さん版のRVC WebUIに関する問題報告ページ:
【Issues】ddPn08/rvc-webui – GitHub
*2023年5月確認時点では「GitHubのIssueに投稿」していただくのが一番早く問題に気がつかれるとのことです。

だだっこぱんだ🍞(ddPn08)さんを支援:
rvc-webuiの更新で多分最高品質になった学習方法 – 2023年4月26日 | PIXIV FANBOX

 

 

 

by 子供プログラマー | プログラミング入門ウェブ教室

 

 

RVC WebUIの使い方入門
日本人のためのRVC WebUIの使い方:簡単オリジナルAIボイスチェンジャー作成

RVC WebUIのボーカルリムーバーの使い方
【RVC WebUIの使い方】ボーカルリムーバー編:AIボイスチェンジャー用学習データセット作成のためのボーカルと音楽の分離 

 

【音声認識】

【Python入門】日本語の文字起こしのやり方(音声認識:音声ファイル編)サンプルコード 

 

【音声合成】

RVC WebUIで作成したオリジナル学習モデルを使ってテキスト音声合成に挑戦!
VG WebUIの使い方:AIボイスチェンジャー(RVC WebUI)の学習モデルでテキスト音声合成(テキストの音声読み上げ:TTS – Text to Speach)入門 

【PyTorch入門】日本語のテキスト音声合成(E2E-TTS)- ESPnet・Tacotron 2版