Skip to content

朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果

Notifications You must be signed in to change notification settings

takeshun256/PauseNormEffect

Repository files navigation

朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果

Important

2024年11月現在、開発・実験コードは日々更新中のため、未整理の部分が多いです。 そのため、論文の実験結果を再現するコードは 主に src/bert_trainに他の実験と共に未整理の状態でアップロードしています。整理が完了次第、スクリプトとしてまとめる予定です。ご了承ください。

以下の論文の実験コードです。

竹下隼司・松崎拓也, 2024, 朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果, 第38回人工知能学会全国大会論文集

朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果

人工知能学会での発表ポスターは doc/poster.pdf にあります。

開発・実験に関するドキュメントは doc/dev.md, src/bert_train/README.md にあります。

参考文献

[1] Alok Parlikar and Alan W. Black. Modeling pauseduration for style-specific speech synthesis. In Proc. Interspeech 2012, pp. 446–449, 2012.

[2] Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, and Hiroshi Saruwatari. J-MAC: Japanese multispeaker audiobook corpus for speech synthesis. In Proc. Interspeech 2022, pp. 2358–2362, 2022.

[3] Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, and Hiroshi Saruwatari. Durationaware pause insertion using pre-trained language model for multi-speaker text-to-speech. In ICASSP, 2023.

About

朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published