Important
2024年11月現在、開発・実験コードは日々更新中のため、未整理の部分が多いです。
そのため、論文の実験結果を再現するコードは 主に src/bert_train
に他の実験と共に未整理の状態でアップロードしています。整理が完了次第、スクリプトとしてまとめる予定です。ご了承ください。
以下の論文の実験コードです。
竹下隼司・松崎拓也, 2024, 朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果, 第38回人工知能学会全国大会論文集
朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果
人工知能学会での発表ポスターは doc/poster.pdf
にあります。
開発・実験に関するドキュメントは doc/dev.md
, src/bert_train/README.md
にあります。
[1] Alok Parlikar and Alan W. Black. Modeling pauseduration for style-specific speech synthesis. In Proc. Interspeech 2012, pp. 446–449, 2012.
[2] Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, and Hiroshi Saruwatari. J-MAC: Japanese multispeaker audiobook corpus for speech synthesis. In Proc. Interspeech 2022, pp. 2358–2362, 2022.
[3] Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, and Hiroshi Saruwatari. Durationaware pause insertion using pre-trained language model for multi-speaker text-to-speech. In ICASSP, 2023.