Un modelo de texto a voz de código abierto con 1.6B de parámetros desarrollado por Nari Labs que genera voces similares a las humanas con entonación, ritmo y emoción naturales. Conoce Dia 1.6B TTS.
Cargando... 3s
Dia 1.6B TTS es un modelo de texto a voz de IA de vanguardia diseñado para la síntesis de diálogos ultrarrealistas. Desarrollado por Nari Labs y lanzado bajo la licencia Apache 2.0, Dia 1.6B TTS ofrece una salida de voz natural y expresiva que rivaliza con las soluciones comerciales.
Dia 1.6B TTS produce voces increíblemente naturales con entonación, ritmo y emoción similares a las humanas. Los modelos avanzados de IA crean un habla prácticamente indistinguible de las voces humanas.
Crea fácilmente diálogos con múltiples hablantes usando etiquetas simples como [S1] y [S2] para designar diferentes voces en tu texto, manteniendo una conversación natural y consistente con Dia 1.6B TTS.
Utiliza la función de prompt de audio para clonar características vocales específicas, permitiendo una identidad vocal consistente a través de múltiples generaciones para salidas de voz personalizadas con Dia 1.6B TTS.
Lanzado bajo la licencia Apache 2.0, permitiendo el uso gratuito tanto para fines personales como comerciales. Los pesos completos del modelo y el código para Dia 1.6B TTS están disponibles en GitHub.
Ejemplo básico de generación de diálogo de Dia 1.6B TTS.
Demostrando interacción casual con Dia 1.6B TTS.
Ejemplo de habla expresiva y de alta emoción usando Dia 1.6B TTS.
Incluye toses, resoplidos, risas generadas por Dia 1.6B TTS.
Demostrando ritmo y flujo con Dia 1.6B TTS.
Ejemplo usando prompts de audio para clonación de voz con Dia 1.6B TTS.
Nota: Para obtener resultados de alta calidad con prompts de audio en Dia 1.6B TTS, anteponga el script correspondiente al texto de entrada. Se está considerando automatizar la transcripción para facilitar su uso.
Mostrando el potencial para la generación de podcasts usando Dia 1.6B TTS.
Destacando el modelo de 1.6B parámetros de Dia 1.6B TTS.
Demostración de generación en una sola pasada con Dia 1.6B TTS.
Escribe o pega el texto que quieres que Dia 1.6B TTS convierta. Usa etiquetas simples como [S1]
y [S2]
antes de las oraciones para asignar diferentes voces de hablantes. También puedes incluir señales no verbales como (risas)
o (toses)
para un realismo adicional.
Para clonar una voz específica o guiar el tono emocional con Dia 1.6B TTS, sube una muestra de audio corta (5-15 segundos) y antepón su transcripción exacta (con etiquetas de hablante) a tu guion principal en la entrada.
Ejecuta el modelo Dia 1.6B TTS (ya sea localmente a través de la aplicación o usando la demo en línea). El modelo procesa todo el guion en una sola pasada, generando un diálogo sin interrupciones.
Reproduce el audio generado directamente desde Dia 1.6B TTS. La salida captura la entonación natural, el ritmo e incluso las señales no verbales, creando una experiencia auditiva ultrarrealista. Descarga el archivo de audio para tus proyectos.
### Instalación en Windows
1. Clona el repositorio
git clone https://github.com/nari-labs/dia.git
cd dia
2. Crea un entorno virtual de Python (Se recomienda Python 3.10)
python -m venv venv
venv\Scripts\activate.bat
3. Instala las dependencias
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. Descarga los pesos del modelo
# Estos se descargarán automáticamente o pueden descargarse manualmente desde Hugging Face
5. Lanza la aplicación
python app.py
### Instalación en Linux / macOS
# Los pasos son generalmente idénticos para Linux y macOS.
# Asegúrate de cumplir con los requisitos previos: Python 3.8+, Git, GPU con CUDA (para uso de GPU).
# 1. Clona el repositorio
git clone https://github.com/nari-labs/dia.git
cd dia
# --- Opción A (Recomendada): Usar uv ---
# uv maneja entornos virtuales y dependencias automáticamente.
# Instala uv si aún no lo tienes: pip install uv
uv run app.py
# --- Opción B (Manual): Usar venv + pip ---
# Si prefieres la configuración manual:
# 2. Crea y activa un entorno virtual (Se recomienda Python 3.10)
python -m venv .venv
source .venv/bin/activate
# 3. Instala las Dependencias
# (Asegúrate de que tu entorno virtual esté activo)
# Actualiza pip
python -m pip install --upgrade pip
# Instala PyTorch que coincida con tu versión de CUDA (Verifica en https://pytorch.org/)
# Ejemplo para CUDA 12.1:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# Ejemplo para solo CPU (será lento):
# pip install torch torchvision torchaudio
# Instala otros requisitos (consulta pyproject.toml para la lista exacta)
pip install -r requirements.txt
# 4. Lanza la aplicación
# (Asegúrate de estar en el directorio 'dia' y que tu entorno esté activo)
python app.py
# --- Accede a la Interfaz ---
# Abre tu navegador y navega a: http://127.0.0.1:7860
# (Consulta la salida del terminal para la URL exacta)
### Usando la Demo en Línea de Dia 1.6B TTS
Puedes probar Dia 1.6B TTS directamente en Hugging Face Spaces:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
1. Visita la página
2. Ingresa tu texto (con etiquetas [S1], [S2], etc. para especificar hablantes)
3. Opcionalmente sube una indicación de audio
4. Haz clic en el botón generar
5. Escucha y descarga el audio generado
Dia 1.6B TTS es un modelo de texto a voz de última generación con 1.6B de parámetros que genera voces similares a las humanas con entonación, ritmo y emoción naturales. En GPUs de nivel empresarial, Dia 1.6B TTS puede generar audio en tiempo real, con una GPU A4000 produciendo aproximadamente 40 tokens/segundo (donde 86 tokens equivalen a 1 segundo de audio).
La versión completa requiere aproximadamente 10GB de VRAM para funcionar. Se planea una versión cuantificada de Dia 1.6B TTS para futuras actualizaciones para mejorar la accesibilidad en hardware de gama baja.