Dia 1.6B TTS

Modelo de Diálogo de Voz AI Ultra Realista

Un modelo de texto a voz de código abierto con 1.6B de parámetros de Nari Labs que genera voz similar a la humana con entonación, ritmo y emoción naturales. Conozca Dia 1.6B TTS.

Dia TTS Hero Animation

¿Qué es Dia 1.6B TTS?

Dia 1.6B TTS es un modelo de texto a voz de IA de vanguardia diseñado para síntesis de diálogo ultra realista. Desarrollado por Nari Labs y lanzado bajo la licencia Apache 2.0, Dia 1.6B TTS ofrece una salida de voz natural y expresiva que rivaliza con las soluciones comerciales.

  • Síntesis de voz con entonación natural, ritmo y expresión emocional usando Dia 1.6B TTS
  • Generación optimizada de diálogo multi-hablante con Dia 1.6B TTS
  • Modelo de 1.6B parámetros que funciona con 10GB de VRAM
  • Capacidades de clonación de voz a través de prompting de audio

Características Principales de Dia 1.6B TTS

Dia 1.6B TTS Calidad de Voz Excepcional

Dia 1.6B TTS produce voces increíblemente naturales con entonación, ritmo y emoción similares a las humanas. El modelo de IA avanzado crea voz que es casi indistinguible de las voces humanas.

Dia 1.6B TTS: Soporte Multi-Hablante

Cree fácilmente conversaciones de múltiples hablantes usando etiquetas simples como [S1] y [S2] para especificar diferentes voces en su texto, manteniendo un diálogo consistente y natural con Dia 1.6B TTS.

Clonación de Voz con Dia 1.6B TTS

Clone características vocales específicas usando la función de prompting de audio, permitiendo una identidad de voz consistente a través de múltiples generaciones para salida de voz personalizada con Dia 1.6B TTS.

Dia 1.6B TTS: Modelo de Código Abierto

Lanzado bajo licencia Apache 2.0, permitiendo uso gratuito para propósitos personales y comerciales. Los pesos completos del modelo y el código para Dia 1.6B TTS están disponibles en GitHub.

Demos de Audio de Dia 1.6B TTS

Dia 1.6B TTS: Uso Estándar (Muestra 1)

Ejemplo básico de generación de diálogo de Dia 1.6B TTS.

Dia 1.6B TTS: Conversación Natural (Muestra 2)

Demuestra interacciones casuales usando Dia 1.6B TTS.

Dia 1.6B TTS: Diálogo Emocional (Muestra 3)

Ejemplo de voz expresiva y altamente emocional usando Dia 1.6B TTS.

Dia 1.6B TTS: Sonidos No Verbales (Muestra 4)

Incluye tos, sollozos, risas generadas por Dia 1.6B TTS.

Dia 1.6B TTS: Ejemplo de Rap (Muestra 5)

Muestra ritmo y rima usando Dia 1.6B TTS.

Dia 1.6B TTS: Función de Prompting de Audio (Muestra 6)

Ejemplo de clonación de voz usando prompts de audio de Dia 1.6B TTS.

Nota: Para usar prompts de audio para salida de alta calidad en Dia 1.6B TTS, anteponga el script correspondiente a su texto de entrada. Se está considerando la transcripción automática para facilitar el uso.

Ejemplos de Video de Dia 1.6B TTS

Dia 1.6B TTS: Calidad de Podcast

Demuestra el potencial para la generación de podcasts usando Dia 1.6B TTS.

Dia 1.6B TTS: Introducción al Modelo

Destaca el modelo de 1.6B parámetros de Dia 1.6B TTS.

Dia 1.6B TTS: Diálogo Ultra Realista

Muestra la generación en un solo paso usando Dia 1.6B TTS.

Cómo Funciona Dia 1.6B TTS: De Texto a Diálogo Realista

  1. 1. Prepare su Script para Dia 1.6B TTS

    Escriba o pegue el texto que desea que Dia 1.6B TTS convierta. Use etiquetas simples como [S1] y [S2] antes de las oraciones para asignar diferentes voces de hablantes. También puede incluir señales no verbales como (ríe) o (tose) para añadir realismo.

  2. 2. (Opcional) Proporcione Prompts de Audio a Dia 1.6B TTS

    Para clonar una voz específica o guiar el tono emocional con Dia 1.6B TTS, cargue una muestra de audio corta (5-15 segundos) y su transcripción precisa (con etiquetas de hablante) antepuesta al script principal en su entrada.

  3. 3. Genere Audio con Dia 1.6B TTS

    Ejecute el modelo Dia 1.6B TTS (localmente a través de la aplicación o usando la demo en línea). El modelo procesa todo el script en un solo paso, generando un diálogo sin interrupciones.

  4. 4. Escuche y Descargue la Salida de Dia 1.6B TTS

    Reproduzca el audio generado directamente desde Dia 1.6B TTS. La salida captura entonación natural, ritmo e incluso señales no verbales, creando una experiencia auditiva ultra realista. Descargue el archivo de audio para sus proyectos.

Guía de Instalación de Dia 1.6B TTS

### Instalación en Windows

1. Clonar el repositorio
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Crear un entorno virtual de Python (Python 3.10 recomendado)
   python -m venv venv
   venv\Scripts\activate.bat

3. Instalar dependencias
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. Descargar pesos del modelo
   # Estos se descargarán automáticamente o pueden descargarse manualmente desde Hugging Face

5. Iniciar la aplicación
   python app.py

Información Técnica de Dia 1.6B TTS

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - Modelo de Síntesis de Diálogo Ultra Realista

Dia 1.6B TTS es un modelo de texto a voz de vanguardia con 1.6B de parámetros que genera voces similares a las humanas con entonación, ritmo y emoción naturales. En GPUs de grado empresarial, Dia 1.6B TTS puede generar audio en tiempo real, con una GPU A4000 produciendo aproximadamente 40 tokens/segundo (86 tokens equivalen a 1 segundo de audio).

La versión completa requiere aproximadamente 10GB de VRAM para ejecutarse. Las versiones cuantizadas de Dia 1.6B TTS están planificadas para actualizaciones futuras para mejorar la accesibilidad en hardware de gama baja.

Precios de Dia TTS

Compre créditos de generación de voz de Dia TTS para experimentar servicios profesionales de texto a voz AI.

Basic

Plan Basic anual con mejor precio.

$9.9$7.9/mes
  • 12000 créditos por año (1000/mes)
  • Facturado anualmente ($94.80/año)
  • Salidas de audio de alta calidad
  • Soporte al cliente estándar

¡Ahorro anual! ¡20% de descuento vs mensual!

Más Popular

Pro

Plan Pro anual, la mejor opción para profesionales.

$19.9$15.9/mes
  • 26400 créditos por año (2200/mes)
  • Facturado anualmente ($190.80/año)
  • Salidas de audio de alta calidad
  • Soporte al cliente prioritario

¡Ahorro anual! ¡20% de descuento vs mensual!

Ultra

Plan Ultra anual, perfecto para equipos y empresas.

$36.9$29.9/mes
  • 54000 créditos por año (4500/mes)
  • Facturado anualmente ($358.80/año)
  • Salidas de audio de alta calidad
  • Soporte al cliente VIP

¡Ahorro anual! ¡19% de descuento vs mensual!