Readme

K0sh1R1zumu · May 17, 2023 · d37bddd · d37bddd
1 parent 98db34e
commit d37bddd
Show file tree

Hide file tree

Showing 2 changed files with 35 additions and 2 deletions.
diff --git a/README_zh_CN.md b/README_zh_CN.md
@@ -17,7 +17,9 @@
 ## 声明
 
 本项目为开源、离线的项目，SvcDevelopTeam的所有成员与本项目的所有开发者以及维护者（以下简称贡献者）对本项目没有控制力。本项目的贡献者从未向任何组织或个人提供包括但不限于数据集提取、数据集加工、算力支持、训练支持、推理等一切形式的帮助；本项目的贡献者不知晓也无法知晓使用者使用该项目的用途。故一切基于本项目训练的AI模型和合成的音频都与本项目贡献者无关。一切由此造成的问题由使用者自行承担。
+
 此项目完全离线运行，不能收集任何用户信息或获取用户输入数据。因此，这个项目的贡献者不知道所有的用户输入和模型，因此不负责任何用户输入。
+
 本项目只是一个框架项目，本身并没有语音合成的功能，所有的功能都需要用户自己训练模型。同时，这个项目没有任何模型，任何二次分发的项目都与这个项目的贡献者无关
 
 ## 📏 使用规约
@@ -57,6 +59,9 @@
   }
 ```
 
+### 🆕 关于浅扩散
+![Diagram](shadowdiffusion.png)
+
 ## 💬 关于 Python 版本问题
 
 在进行测试后，我们认为`Python 3.8.9`能够稳定地运行该项目
@@ -86,13 +91,16 @@ wget -P pretrain/ http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best
 + 预训练底模文件： `G_0.pth` `D_0.pth`
   + 放在`logs/44k`目录下
 
++ 扩散模型预训练底模文件： `model_0.pt `
+  + 放在`logs/44k/diffusion`目录下
+
 从svc-develop-team(待定)或任何其他地方获取
 
 虽然底模一般不会引起什么版权问题，但还是请注意一下，比如事先询问作者，又或者作者在模型描述中明确写明了可行的用途
 
 #### **可选项(根据情况选择)**
 
-如果使用NSF-HIFIGAN增强器的话，需要下载预训练的NSF-HIFIGAN模型，如果不需要可以不下载
+如果使用NSF-HIFIGAN增强器或浅层扩散的话，需要下载预训练的NSF-HIFIGAN模型，如果不需要可以不下载
 
 + 预训练的NSF-HIFIGAN声码器 ：[nsf_hifigan_20221211.zip](https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip)
   + 解压后，将四个文件放在`pretrain/nsf_hifigan`目录下
@@ -181,20 +189,38 @@ harvest
 
 如果省略f0_predictor参数，默认值为dio
 
+尚若需要浅扩散功能（可选），需要增加--use_diff参数，比如
+
+```shell
+python preprocess_hubert_f0.py --f0_predictor dio --use_diff
+```
+
 执行完以上步骤后 dataset 目录便是预处理完成的数据，可以删除 dataset_raw 文件夹了
 
-#### 此时可以在生成的config.json修改部分参数
+#### 此时可以在生成的config.json与diffusion.yaml修改部分参数
 
 * `keep_ckpts`：训练时保留最后几个模型，`0`为保留所有，默认只保留最后`3`个
 
 * `all_in_mem`：加载所有数据集到内存中，某些平台的硬盘IO过于低下、同时内存容量 **远大于** 数据集体积时可以启用
 
 ## 🏋️‍♀️ 训练
 
+### 扩散模型（可选）
+
+尚若需要浅扩散功能，需要训练扩散模型，扩散模型训练方法为:
+
+```shell
+python train_diff.py -c configs/diffusion.yaml
+```
+
+### 主模型训练
+
 ```shell
 python train.py -c configs/config.json -m 44k
 ```
 
+模型训练结束后，模型文件保存在`logs/44k`目录下，扩散模型在`logs/44k/diffusion`下
+
 ## 🤖 推理
 
 使用 [inference_main.py](inference_main.py)
@@ -219,6 +245,13 @@ python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "
 + `-cm` | `--cluster_model_path`：聚类模型路径，如果没有训练聚类则随便填
 + `-cr` | `--cluster_infer_ratio`：聚类方案占比，范围0-1，若没有训练聚类模型则默认0即可
 + `-eh` | `--enhance`：是否使用NSF_HIFIGAN增强器,该选项对部分训练集少的模型有一定的音质增强效果，但是对训练好的模型有反面效果，默认关闭
++ `-shd` | `--shallow_diffusion`：是否使用浅层扩散，使用后可解决一部分电音问题，默认关闭，该选项打开时，NSF_HIFIGAN增强器将会被禁止
+
+浅扩散设置
++ `-dm` | `--diffusion_model_path`：扩散模型路径
++ `-dc` | `--diffusion_config_path`：扩散模型配置文件路径
++ `-ks` | `--k_step`：扩散步数，越大越接近扩散模型的结果，默认100
++ `-od` | `---only_diffusion`：纯扩散模式，该模式不会加载sovits模型，以扩散模型推理
 
 ## 🤔 可选项
 

diff --git a/shadowdiffusion.png b/shadowdiffusion.png