Dia 1.6B TTS

Modelo de Voz AI Ultra Realista para Diálogo

Un modelo de texto a voz de código abierto con 1.6B de parámetros desarrollado por Nari Labs que genera voces similares a las humanas con entonación, ritmo y emoción naturales. Conoce Dia 1.6B TTS.

Animación Dia TTS

Cargando... 3s

¿Qué es Dia 1.6B TTS?

Dia 1.6B TTS es un modelo de texto a voz de IA de vanguardia diseñado para la síntesis de diálogos ultrarrealistas. Desarrollado por Nari Labs y lanzado bajo la licencia Apache 2.0, Dia 1.6B TTS ofrece una salida de voz natural y expresiva que rivaliza con las soluciones comerciales.

  • Síntesis de voz con entonación, ritmo y expresión emocional naturales usando Dia 1.6B TTS
  • Optimizado para generar conversaciones con múltiples hablantes con Dia 1.6B TTS
  • Modelo de 1.6B parámetros que funciona con 10GB de VRAM
  • Capacidades de clonación de voz mediante indicaciones de audio

Características Clave de Dia 1.6B TTS

Calidad de Voz Superior con Dia 1.6B TTS

Dia 1.6B TTS produce voces increíblemente naturales con entonación, ritmo y emoción similares a las humanas. Los modelos avanzados de IA crean un habla prácticamente indistinguible de las voces humanas.

Dia 1.6B TTS: Soporte para Múltiples Hablantes

Crea fácilmente diálogos con múltiples hablantes usando etiquetas simples como [S1] y [S2] para designar diferentes voces en tu texto, manteniendo una conversación natural y consistente con Dia 1.6B TTS.

Clonación de Voz usando Dia 1.6B TTS

Utiliza la función de prompt de audio para clonar características vocales específicas, permitiendo una identidad vocal consistente a través de múltiples generaciones para salidas de voz personalizadas con Dia 1.6B TTS.

Dia 1.6B TTS: Modelo de Código Abierto

Lanzado bajo la licencia Apache 2.0, permitiendo el uso gratuito tanto para fines personales como comerciales. Los pesos completos del modelo y el código para Dia 1.6B TTS están disponibles en GitHub.

Demos de Audio de Dia 1.6B TTS

Dia 1.6B TTS: Uso Estándar (Muestra 1)

Ejemplo básico de generación de diálogo de Dia 1.6B TTS.

Dia 1.6B TTS: Conversación Natural (Muestra 2)

Demostrando interacción casual con Dia 1.6B TTS.

Dia 1.6B TTS: Diálogo Emocional (Muestra 3)

Ejemplo de habla expresiva y de alta emoción usando Dia 1.6B TTS.

Dia 1.6B TTS: Sonidos No Verbales (Muestra 4)

Incluye toses, resoplidos, risas generadas por Dia 1.6B TTS.

Dia 1.6B TTS: Ejemplo de Rap (Muestra 5)

Demostrando ritmo y flujo con Dia 1.6B TTS.

Dia 1.6B TTS: Función de Prompt de Audio (Muestra 6)

Ejemplo usando prompts de audio para clonación de voz con Dia 1.6B TTS.

Nota: Para obtener resultados de alta calidad con prompts de audio en Dia 1.6B TTS, anteponga el script correspondiente al texto de entrada. Se está considerando automatizar la transcripción para facilitar su uso.

Ejemplos en Video de Dia 1.6B TTS

Dia 1.6B TTS: Calidad de Podcast

Mostrando el potencial para la generación de podcasts usando Dia 1.6B TTS.

Dia 1.6B TTS: Introducción al Modelo

Destacando el modelo de 1.6B parámetros de Dia 1.6B TTS.

Dia 1.6B TTS: Diálogo Ultra Realista

Demostración de generación en una sola pasada con Dia 1.6B TTS.

Cómo Funciona Dia 1.6B TTS: Del Texto al Diálogo Realista

  1. 1. Prepara tu Guion para Dia 1.6B TTS

    Escribe o pega el texto que quieres que Dia 1.6B TTS convierta. Usa etiquetas simples como [S1] y [S2] antes de las oraciones para asignar diferentes voces de hablantes. También puedes incluir señales no verbales como (risas) o (toses) para un realismo adicional.

  2. 2. (Opcional) Proporciona un Prompt de Audio para Dia 1.6B TTS

    Para clonar una voz específica o guiar el tono emocional con Dia 1.6B TTS, sube una muestra de audio corta (5-15 segundos) y antepón su transcripción exacta (con etiquetas de hablante) a tu guion principal en la entrada.

  3. 3. Genera el Audio con Dia 1.6B TTS

    Ejecuta el modelo Dia 1.6B TTS (ya sea localmente a través de la aplicación o usando la demo en línea). El modelo procesa todo el guion en una sola pasada, generando un diálogo sin interrupciones.

  4. 4. Escucha y Descarga la Salida de Dia 1.6B TTS

    Reproduce el audio generado directamente desde Dia 1.6B TTS. La salida captura la entonación natural, el ritmo e incluso las señales no verbales, creando una experiencia auditiva ultrarrealista. Descarga el archivo de audio para tus proyectos.

Guía de Instalación de Dia 1.6B TTS

### Instalación en Windows

1. Clona el repositorio
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Crea un entorno virtual de Python (Se recomienda Python 3.10)
   python -m venv venv
   venv\Scripts\activate.bat

3. Instala las dependencias
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. Descarga los pesos del modelo
   # Estos se descargarán automáticamente o pueden descargarse manualmente desde Hugging Face

5. Lanza la aplicación
   python app.py
### Instalación en Linux / macOS
# Los pasos son generalmente idénticos para Linux y macOS.

# Asegúrate de cumplir con los requisitos previos: Python 3.8+, Git, GPU con CUDA (para uso de GPU).

# 1. Clona el repositorio
git clone https://github.com/nari-labs/dia.git
cd dia

# --- Opción A (Recomendada): Usar uv ---
# uv maneja entornos virtuales y dependencias automáticamente.
# Instala uv si aún no lo tienes: pip install uv
uv run app.py

# --- Opción B (Manual): Usar venv + pip ---
# Si prefieres la configuración manual:

# 2. Crea y activa un entorno virtual (Se recomienda Python 3.10)
python -m venv .venv
source .venv/bin/activate

# 3. Instala las Dependencias
# (Asegúrate de que tu entorno virtual esté activo)
# Actualiza pip
python -m pip install --upgrade pip

# Instala PyTorch que coincida con tu versión de CUDA (Verifica en https://pytorch.org/)
# Ejemplo para CUDA 12.1:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# Ejemplo para solo CPU (será lento):
# pip install torch torchvision torchaudio

# Instala otros requisitos (consulta pyproject.toml para la lista exacta)
pip install -r requirements.txt

# 4. Lanza la aplicación
# (Asegúrate de estar en el directorio 'dia' y que tu entorno esté activo)
python app.py

# --- Accede a la Interfaz ---
# Abre tu navegador y navega a: http://127.0.0.1:7860
# (Consulta la salida del terminal para la URL exacta)
### Usando la Demo en Línea de Dia 1.6B TTS

Puedes probar Dia 1.6B TTS directamente en Hugging Face Spaces:
https://huggingface.co/spaces/nari-labs/Dia-1.6B

1. Visita la página
2. Ingresa tu texto (con etiquetas [S1], [S2], etc. para especificar hablantes)
3. Opcionalmente sube una indicación de audio
4. Haz clic en el botón generar
5. Escucha y descarga el audio generado

Información Técnica de Dia 1.6B TTS

Diagrama de Arquitectura de Dia 1.6B TTS

Dia 1.6B TTS - Modelo de Síntesis de Diálogo Ultra Realista

Dia 1.6B TTS es un modelo de texto a voz de última generación con 1.6B de parámetros que genera voces similares a las humanas con entonación, ritmo y emoción naturales. En GPUs de nivel empresarial, Dia 1.6B TTS puede generar audio en tiempo real, con una GPU A4000 produciendo aproximadamente 40 tokens/segundo (donde 86 tokens equivalen a 1 segundo de audio).

La versión completa requiere aproximadamente 10GB de VRAM para funcionar. Se planea una versión cuantificada de Dia 1.6B TTS para futuras actualizaciones para mejorar la accesibilidad en hardware de gama baja.