audio ai
-
FastSpeech2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECHAI/Audio and Speech Processing 2024. 10. 4. 18:17
ICLR 2021 FastSpeech2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECHYi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan LiuZhejiang University | Microsoft Research Asia | Microsoft Azure SpeechTTS 모델을 구현하여 프로젝트를 진행할 때 일반적으로 많이 사용하는 모델이기 때문에 알아두는 것이 좋은 논문인 것 같다.꽤 시간이 지난 논문임에도 준수한 속도와 성능을 보인다고 생각한다. DOI: https://doi.org/10.48550/arXiv.2006.04558 FastSpeech 2: Fast and High-Quality..
-
NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS - Tacotron2AI/Audio and Speech Processing 2024. 9. 24. 18:04
ICASSP 2018 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui WuGoogle, University of California, Berkeley본 논문은 TTS를 위한 모델로, Tacotron의 두 번째 버전이다. 이전 방법에 비해 아주 높은 수준의 MOS 성능 향상을 이루..