Dia 1.6B TTS

초현실적인 AI 음성 대화 모델

Nari Labs의 16억 파라미터 오픈소스 텍스트 음성 변환 모델로 자연스러운 억양, 리듬, 감정을 가진 인간과 같은 음성을 생성합니다. Dia 1.6B TTS를 만나보세요.

Dia 1.6B TTS란 무엇인가요?

Dia 1.6B TTS는 초현실적인 대화 합성을 위해 설계된 최첨단 AI 텍스트 음성 변환 모델입니다. Nari Labs에서 개발하고 Apache 2.0 라이선스로 출시된 Dia 1.6B TTS는 상용 솔루션과 경쟁할 수 있는 자연스럽고 표현력 있는 음성 출력을 제공합니다.

Dia 1.6B TTS를 사용한 자연스러운 억양, 리듬 및 감정 표현의 음성 합성
Dia 1.6B TTS로 최적화된 다중 화자 대화 생성
10GB VRAM에서 실행되는 16억 파라미터 모델
음성 프롬프팅을 통한 음성 복제 기능

Dia 1.6B TTS 핵심 기능

Dia 1.6B TTS 탁월한 음성 품질

Dia 1.6B TTS는 인간과 같은 억양, 리듬, 감정을 가진 놀라울 정도로 자연스러운 음성을 생성합니다. 고급 AI 모델은 인간 목소리와 거의 구별할 수 없는 음성을 만듭니다.

Dia 1.6B TTS: 다중 화자 지원

[S1] 및 [S2]와 같은 간단한 태그를 사용하여 텍스트에서 다른 음성을 지정하고, Dia 1.6B TTS로 일관되고 자연스러운 대화를 쉽게 만들 수 있습니다.

Dia 1.6B TTS로 음성 복제

음성 프롬프팅 기능을 사용하여 특정 음성 특성을 복제하고, Dia 1.6B TTS로 여러 생성에 걸쳐 일관된 음성 정체성을 가능하게 하여 개인화된 음성 출력을 제공합니다.

Dia 1.6B TTS: 오픈소스 모델

Apache 2.0 라이선스로 출시되어 개인 및 상업적 목적으로 무료 사용이 가능합니다. Dia 1.6B TTS의 전체 모델 가중치와 코드는 GitHub에서 이용 가능합니다.

Dia 1.6B TTS 음성 데모

Dia 1.6B TTS: 표준 사용 (샘플 1)

Dia 1.6B TTS의 기본 대화 생성 예제.

Dia 1.6B TTS: 자연스러운 대화 (샘플 2)

Dia 1.6B TTS를 사용한 캐주얼한 상호작용을 보여줍니다.

Dia 1.6B TTS: 감정적인 대화 (샘플 3)

Dia 1.6B TTS를 사용한 표현력 있고 감정이 풍부한 음성 예제.

Dia 1.6B TTS: 비언어적 소리 (샘플 4)

Dia 1.6B TTS로 생성된 기침, 훌쩍임, 웃음을 포함합니다.

Dia 1.6B TTS: 랩 예제 (샘플 5)

Dia 1.6B TTS를 사용한 리듬과 운율을 보여줍니다.

Dia 1.6B TTS: 음성 프롬프팅 기능 (샘플 6)

Dia 1.6B TTS 음성 프롬프트를 사용한 음성 복제 예제.

참고: Dia 1.6B TTS에서 고품질 출력을 위해 음성 프롬프트를 사용하려면 해당 스크립트를 입력 텍스트 앞에 추가하세요. 사용 편의성을 위해 자동 전사가 고려되고 있습니다.

Dia 1.6B TTS 비디오 예제

Dia 1.6B TTS: 팟캐스트 품질

Dia 1.6B TTS를 사용한 팟캐스트 생성 가능성을 보여줍니다.

Dia 1.6B TTS: 모델 소개

Dia 1.6B TTS의 16억 파라미터 모델을 강조합니다.

Dia 1.6B TTS: 초현실적인 대화

Dia 1.6B TTS를 사용한 원패스 생성을 보여줍니다.

Dia 1.6B TTS 작동 방식: 텍스트에서 생생한 대화로

1. Dia 1.6B TTS용 스크립트 준비
Dia 1.6B TTS가 변환할 텍스트를 작성하거나 붙여넣으세요. [S1] 및 [S2]와 같은 간단한 태그를 문장 앞에 사용하여 다른 화자 음성을 할당합니다. (웃음)이나 (기침)과 같은 비언어적 단서를 포함하여 사실감을 더할 수도 있습니다.
2. (선택사항) Dia 1.6B TTS에 음성 프롬프트 제공
Dia 1.6B TTS로 특정 음성을 복제하거나 감정적 톤을 안내하려면, 짧은 음성 샘플(5-15초)과 정확한 전사(화자 태그 포함)를 입력의 메인 스크립트 앞에 추가하여 업로드하세요.
3. Dia 1.6B TTS로 음성 생성
Dia 1.6B TTS 모델을 실행합니다(앱을 통해 로컬로 또는 온라인 데모 사용). 모델은 전체 스크립트를 한 번에 처리하여 매끄러운 대화를 생성합니다.
4. Dia 1.6B TTS 출력 듣기 및 다운로드
Dia 1.6B TTS에서 직접 생성된 음성을 재생합니다. 출력은 자연스러운 억양, 리듬, 심지어 비언어적 단서까지 포착하여 초현실적인 청취 경험을 만듭니다. 프로젝트용 음성 파일을 다운로드하세요.

Dia 1.6B TTS 설치 가이드

### Windows 설치

1. 저장소 복제
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Python 가상 환경 생성 (Python 3.10 권장)
   python -m venv venv
   venv\Scripts\activate.bat

3. 의존성 설치
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. 모델 가중치 다운로드
   # 자동으로 다운로드되거나 Hugging Face에서 수동으로 다운로드할 수 있습니다

5. 애플리케이션 실행
   python app.py

Dia 1.6B TTS 기술 정보

Dia 1.6B TTS - 초현실적인 대화 합성 모델

Dia 1.6B TTS는 자연스러운 억양, 리듬, 감정을 가진 인간과 같은 음성을 생성하는 16억 파라미터의 최첨단 텍스트 음성 변환 모델입니다. 엔터프라이즈급 GPU에서 Dia 1.6B TTS는 실시간으로 음성을 생성할 수 있으며, A4000 GPU는 약 40 토큰/초를 생성합니다(86 토큰이 음성 1초에 해당).

전체 버전을 실행하려면 약 10GB의 VRAM이 필요합니다. Dia 1.6B TTS의 양자화 버전은 저사양 하드웨어에서의 접근성을 개선하기 위해 향후 업데이트에서 계획되고 있습니다.

Dia 1.6B TTS GitHub 저장소 Dia 1.6B TTS 온라인 데모

Dia TTS 요금제

Dia TTS 음성 생성 크레딧을 구매하여 전문 AI 텍스트 음성 변환 서비스를 경험하세요.

Basic

더 나은 가격의 연간 Basic 플랜.

$9.9$7.9/월

연간 12000 크레딧 (1000/월)
연간 청구 ($94.80/년)
고품질 오디오 출력
표준 고객 지원

연간 절약! 월간 대비 20% 할인!

가장 인기있는

Pro

전문가를 위한 최선의 선택, 연간 Pro 플랜.

$19.9$15.9/월

연간 26400 크레딧 (2200/월)
연간 청구 ($190.80/년)
고품질 오디오 출력
우선 고객 지원