인공지능
-
ReZero is All You Need: Fast Convergence at Large DepthAI/Vision 2025. 3. 4. 17:03
PMLR ReZero is All You Need: Fast Convergence at Large Depth Thomas Bachlechner∗ , Bodhisattwa Prasad Majumder∗ , Huanru Henry Mao∗ , Garrison W. Cottrell, Julian McAuley본 논문은 large depth model에서 vanishing/exploding gradient 없이 안정적이고 빠르게 수렴하는 방법에 대한 방법을 제안하는 논문이다. doi: https://arxiv.org/abs/2003.04887 ReZero is All You Need: Fast Convergence at Large DepthDeep networks often suffer from vanishi..
-
Data-centric AI 개념AI 2025. 1. 21. 17:58
이번 포스팅에서는 Data-centric AI에 대해서 설명하고 이야기해보고자 한다.연구보다는 실무 쪽에서 많이 강조되고 필요로하는 패러다임이다. 그렇기 때문에 실제 AI system을 개발하고자 한다면, 알고 있어야 하는 내용이라 생각한다. 해당 글을 위해 참고한 논문 및 영상자료는 아래와 같다.1. 논문: Data-centric AI: Perspectives and ChallengesDoi: https://doi.org/10.48550/arXiv.2301.04819 Data-centric AI: Perspectives and ChallengesThe role of data in building AI systems has recently been significantly magnified by the..
-
Fourier-based augmentation with applications to domain generalizationAI/Vision 2024. 12. 12. 18:04
Pattern RecogntionFourier-based augmentation with applications to domain generalization Qinwei Xu, Ruipeng Zhang, Ziqing Fan, Yanfeng Wang, Yi-Yan Wu, Ya Zhang본 논문은 Domain Generalization (DG)을 위해 데이터 증강 방법을 제안한 연구이다. 특히, 논문에서 Frequency 기반 증강을 수행할 때, Phase와 Amplitude의 역할을 분석하고 이를 증강 기법에 활용하는 접근법이 좋다고 생각한다. DOI: https://doi.org/10.1016/j.patcog.2023.109474 Redirecting linkinghub.elsevier.com1. Int..
-
FastSpeech2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECHAI/Audio and Speech Processing 2024. 10. 4. 18:17
ICLR 2021 FastSpeech2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECHYi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan LiuZhejiang University | Microsoft Research Asia | Microsoft Azure SpeechTTS 모델을 구현하여 프로젝트를 진행할 때 일반적으로 많이 사용하는 모델이기 때문에 알아두는 것이 좋은 논문인 것 같다.꽤 시간이 지난 논문임에도 준수한 속도와 성능을 보인다고 생각한다. DOI: https://doi.org/10.48550/arXiv.2006.04558 FastSpeech 2: Fast and High-Quality..
-
NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS - Tacotron2AI/Audio and Speech Processing 2024. 9. 24. 18:04
ICASSP 2018 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui WuGoogle, University of California, Berkeley본 논문은 TTS를 위한 모델로, Tacotron의 두 번째 버전이다. 이전 방법에 비해 아주 높은 수준의 MOS 성능 향상을 이루..
-
Bayesian Optimization Meets Self-DistillationAI/Vision 2024. 8. 9. 21:22
ICCVBayesian Optimization Meets Self-DistillationLunit Inc.Auto ML과 self-distillation을 함께 진행하는 방법이다. 개인적으로 self-distillation을 이용한 연구를 진행하며 안정적으로 학습이 진행되는 hyperparameter(loss weight, lr scheduler gamma value, etc...)를 찾기가 어려워 grid search 이외에 다른 방법이 있나 찾아보다가 알게 된 논문이다. 실제로 연구에 적용을 해보지는 못했지만 흥미로운 논문이었다. DOI: 10.1109/ICCV51070.2023.00163 CSDL | IEEE Computer Society www.computer.org0. Hyperparameter..
-
Get a Model! Model Hijacking Attack Against Machine Learning ModelsAI/Vision 2024. 8. 7. 18:15
Network and Distributed System Security SymposiumGet a Model! Model Hijacking Attack Against Machine Learning ModelsAhmed Samlem, Michael Backes, Yang Zhang본 논문은 Hijacking Attack 방법을 제시하는 논문이다. 해당 논문을 통해 인공지능 시스템을 제공하기 전 보안에 대해서 다시 한 번 더 생각하게 되는 논문이었다.DOI: https://doi.org/10.48550/arXiv.2111.04394 Get a Model! Model Hijacking Attack Against Machine Learning ModelsMachine learning (ML) has establ..
-
DDPM: Denoising Diffusion Probabilistic ModelsAI/Vision 2024. 8. 6. 14:03
NeurIPS 2020Denoising Diffusion Probabilistic ModelsJonathan Ho, Ajay Jain, and Pieter Abbeel본 논문은 이미지 생성 분야에서 최초로 Diffusion 방식을 제안한 연구로, 생성형 인공지능 연구에 있어 중요한 전환점을 제시했습니다. DDPM의 등장은 이미지 생성에 혁신적인 변화를 가져왔으며, 현재 대부분의 이미지 생성 모델은 Diffusion 방식을 채택하고 있습니다. 따라서 이 개념은 이제 필수적으로 숙지해야 할 분야라고 생각합니다. DOI: https://doi.org/10.48550/arXiv.2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality ..