Un modèle de text-to-speech open source avec 1.6B paramètres développé par Nari Labs qui génère des voix humaines avec une intonation, un rythme et une émotion naturels. Découvrez Dia 1.6B TTS.
Chargement... 3s
Dia 1.6B TTS est un modèle de text-to-speech IA de pointe conçu pour la synthèse de dialogue ultra-réaliste. Développé par Nari Labs et publié sous la licence Apache 2.0, Dia 1.6B TTS offre une sortie vocale naturelle et expressive qui rivalise avec les solutions commerciales.
Dia 1.6B TTS produit des voix incroyablement naturelles avec une intonation, un rythme et une émotion semblables à ceux des humains. Les modèles IA avancés créent une parole pratiquement indiscernable des voix humaines.
Créez facilement des dialogues avec plusieurs locuteurs en utilisant des balises simples comme [S1] et [S2] pour désigner différentes voix dans votre texte, en maintenant une conversation naturelle et cohérente avec Dia 1.6B TTS.
Utilisez la fonction de prompt audio pour cloner des caractéristiques vocales spécifiques, permettant une identité vocale cohérente sur plusieurs générations pour des sorties vocales personnalisées avec Dia 1.6B TTS.
Publié sous la licence Apache 2.0, permettant une utilisation gratuite à des fins personnelles et commerciales. Les poids complets du modèle et le code pour Dia 1.6B TTS sont disponibles sur GitHub.
Exemple de génération de dialogue de base de Dia 1.6B TTS.
Démonstration d'interaction décontractée avec Dia 1.6B TTS.
Exemple de parole expressive et à haute émotion en utilisant Dia 1.6B TTS.
Comprend toux, reniflements, rires générés par Dia 1.6B TTS.
Démonstration de rythme et de fluidité avec Dia 1.6B TTS.
Exemple utilisant des prompts audio pour le clonage vocal avec Dia 1.6B TTS.
Note : Pour une sortie de haute qualité avec des prompts audio dans Dia 1.6B TTS, préfixez le script correspondant au texte d'entrée. L'automatisation de la transcription pour une utilisation plus facile est envisagée.
Présentation du potentiel pour la génération de podcasts en utilisant Dia 1.6B TTS.
Mise en avant du modèle à 1.6B paramètres de Dia 1.6B TTS.
Démonstration de la génération en une seule passe avec Dia 1.6B TTS.
Écrivez ou collez le texte que vous voulez que Dia 1.6B TTS convertisse. Utilisez des balises simples comme [S1]
et [S2]
avant les phrases pour attribuer différentes voix de locuteurs. Vous pouvez également inclure des indices non verbaux comme (rires)
ou (toux)
pour plus de réalisme.
Pour cloner une voix spécifique ou guider le ton émotionnel avec Dia 1.6B TTS, téléchargez un court échantillon audio (5-15 secondes) et préfixez sa transcription exacte (avec les balises de locuteur) à votre script principal dans l'entrée.
Exécutez le modèle Dia 1.6B TTS (soit localement via l'application, soit en utilisant la démo en ligne). Le modèle traite l'ensemble du script en une seule passe, générant un dialogue fluide.
Écoutez directement l'audio généré par Dia 1.6B TTS. La sortie capture l'intonation naturelle, le rythme et même les indices non verbaux, créant une expérience d'écoute ultra-réaliste. Téléchargez le fichier audio pour vos projets.
### Installation Windows
1. Clonez le dépôt
git clone https://github.com/nari-labs/dia.git
cd dia
2. Créez un environnement virtuel Python (Python 3.10 recommandé)
python -m venv venv
venv\Scripts\activate.bat
3. Installez les dépendances
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. Téléchargez les poids du modèle
# Ils seront téléchargés automatiquement ou peuvent être téléchargés manuellement depuis Hugging Face
5. Lancez l'application
python app.py
### Installation Linux / macOS
# Les étapes sont généralement identiques pour Linux et macOS.
# Assurez-vous que les prérequis sont satisfaits : Python 3.8+, Git, GPU compatible CUDA (pour l'utilisation du GPU).
# 1. Clonez le dépôt
git clone https://github.com/nari-labs/dia.git
cd dia
# --- Option A (Recommandée) : Utilisation de uv ---
# uv gère automatiquement les environnements virtuels et les dépendances.
# Installez uv si vous ne l'avez pas déjà : pip install uv
uv run app.py
# --- Option B (Manuelle) : Utilisation de venv + pip ---
# Si vous préférez une configuration manuelle :
# 2. Créez et activez un environnement virtuel (Python 3.10 recommandé)
python -m venv .venv
source .venv/bin/activate
# 3. Installez les Dépendances
# (Assurez-vous que votre environnement virtuel est actif)
# Mettez à jour pip
python -m pip install --upgrade pip
# Installez PyTorch correspondant à votre version CUDA (Consultez https://pytorch.org/)
# Exemple pour CUDA 12.1 :
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# Exemple pour CPU uniquement (sera lent) :
# pip install torch torchvision torchaudio
# Installez les autres dépendances (consultez pyproject.toml pour la liste exacte)
pip install -r requirements.txt
# 4. Lancez l'application
# (Assurez-vous d'être dans le répertoire 'dia' et que votre environnement est actif)
python app.py
# --- Accédez à l'Interface ---
# Ouvrez votre navigateur et naviguez vers : http://127.0.0.1:7860
# (Vérifiez la sortie du terminal pour l'URL exacte)
### Utilisation de la Démo en Ligne de Dia 1.6B TTS
Vous pouvez essayer Dia 1.6B TTS directement sur Hugging Face Spaces :
https://huggingface.co/spaces/nari-labs/Dia-1.6B
1. Visitez la page
2. Entrez votre texte (avec les balises [S1], [S2], etc. pour spécifier les interlocuteurs)
3. Téléchargez éventuellement une invite audio
4. Cliquez sur le bouton de génération
5. Écoutez et téléchargez l'audio de sortie
Dia 1.6B TTS est un modèle de text-to-speech de pointe avec 1.6B paramètres qui génère des voix humaines avec une intonation, un rythme et une émotion naturels. Sur les GPU d'entreprise, Dia 1.6B TTS peut générer de l'audio en temps réel, avec un GPU A4000 produisant environ 40 tokens/seconde (86 tokens équivalant à 1 seconde d'audio).
La version complète nécessite environ 10 Go de VRAM pour fonctionner. Une version quantifiée de Dia 1.6B TTS est prévue pour les mises à jour futures afin d'améliorer l'accessibilité sur le matériel bas de gamme.