활동 목표
- 더 나은 학습 방안 모색
- 음성 생성 모델 공부
활동 결과
1. 학습 방법
- 주 마다 각자 공부한 내용 설명해보기
- 질의 응답
- 질문받은 내용을 바탕으로 추가 학습/조사 방향 결정
2. 음성 생성 모델 공부
XTTS (eXtensible Text-to-Speech) 모델
1. 인코더 (Encoder)
- GPT-2 기반 인코더: XTTS 모델은 GPT-2 인코더를 사용하여 입력 텍스트를 잠재 벡터(latent vectors)로 변환. GPT-2는 자연어 처리 모델로, 텍스트 데이터를 인코딩하여 후속 처리에 필요한 정보를 제공한다.
- VQ-VAE 압축: 벡터 양자화 변이 자동 인코더(Variational Quantized Autoencoder, VQ-VAE)를 사용하여 데이터를 압축. 이 과정은 고도로 압축된 잠재 벡터를 생성하지만, 발음 문제와 인공물을 피하기 위해 후속 디코더 단계에서 추가 처리가 필요함.
2. 디코더 (Decoder)
- HiFi-GAN 기반 디코더: HiFi-GAN 보코더를 기반으로 하는 디코더를 사용하여 잠재 벡터를 오디오 신호로 변환. HiFi-GAN은 고품질의 음성을 생성하는 데 특화된 보코더.
- 스피커 임베딩: 디코더는 H/ASP 모델에서 제공되는 스피커 임베딩(speaker embedding)을 사용하여 스피커의 특성을 반영. 각 업샘플링 레이어에 선형 투영(linear projection)을 통해 스피커 임베딩을 추가하여 스피커 일관성을 유지.
- 업샘플링: 입력 벡터를 선형으로 업샘플링하여 24kHz 오디오 신호를 생성. 이는 원래 22.5kHz로 훈련된 VQ-VAE와 인코더의 출력을 디코딩할 때 사용.
3. 학습 및 최적화
- AdamW 옵티마이저: XTTS는 AdamW 옵티마이저를 사용하여 모델을 학습. 이 옵티마이저는 가중치 감쇠(weight decay)와 배타(beta) 파라미터를 사용하여 학습 속도를 조절.
- 다단계 학습률 감소(MultiStepLR): 학습 과정에서 학습률을 단계적으로 감소시켜 모델의 안정성을 높임. 이는 특정 이정표에서 학습률을 감소시키는 방식으로 이루어짐.
- XTTS의 모델 구조 다이어그램
1. 입력 텍스트 ➔ 2. GPT-2 인코더 ➔ 3. 잠재 벡터 (VQ-VAE 압축) ➔ 4. HiFi-GAN 기반 디코더 (스피커 임베딩 포함) ➔ 5. 고품질 오디오 출력
'모각코 > 2024 하계 모각코' 카테고리의 다른 글
[2024 하계 모각코] 5차 개인 계획 및 결과 (0) | 2024.08.06 |
---|---|
[2024 하계 모각코] 4차 개인 계획 및 결과 (0) | 2024.07.28 |
[2024 하계 모각코] 3차 개인 계획 및 결과 (0) | 2024.07.18 |
[2024 하계 모각코] 1차 개인 계획 및 결과 (0) | 2024.07.07 |
[2024 하계 모각코] 모각코 개인 계획 (0) | 2024.07.07 |