Dia 1.6B TTS

Qu'est-ce que Dia 1.6B TTS ?

Dia 1.6B TTS est un modèle de text-to-speech IA de pointe conçu pour la synthèse de dialogue ultra-réaliste. Développé par Nari Labs et publié sous la licence Apache 2.0, Dia 1.6B TTS offre une sortie vocale naturelle et expressive qui rivalise avec les solutions commerciales.

Synthèse vocale avec intonation, rythme et expression émotionnelle naturels utilisant Dia 1.6B TTS
Optimisé pour générer des conversations avec plusieurs locuteurs avec Dia 1.6B TTS
Modèle à 1,6B paramètres fonctionnant sur 10GB de VRAM
Capacités de clonage vocal via des invites audio

Caractéristiques Clés de Dia 1.6B TTS

Qualité Vocale Supérieure avec Dia 1.6B TTS

Dia 1.6B TTS produit des voix incroyablement naturelles avec une intonation, un rythme et une émotion semblables à ceux des humains. Les modèles IA avancés créent une parole pratiquement indiscernable des voix humaines.

Dia 1.6B TTS : Support Multi-Locuteurs

Créez facilement des dialogues avec plusieurs locuteurs en utilisant des balises simples comme [S1] et [S2] pour désigner différentes voix dans votre texte, en maintenant une conversation naturelle et cohérente avec Dia 1.6B TTS.

Clonage Vocal en utilisant Dia 1.6B TTS

Utilisez la fonction de prompt audio pour cloner des caractéristiques vocales spécifiques, permettant une identité vocale cohérente sur plusieurs générations pour des sorties vocales personnalisées avec Dia 1.6B TTS.

Dia 1.6B TTS : Modèle Open Source

Publié sous la licence Apache 2.0, permettant une utilisation gratuite à des fins personnelles et commerciales. Les poids complets du modèle et le code pour Dia 1.6B TTS sont disponibles sur GitHub.

Démos Audio de Dia 1.6B TTS

Dia 1.6B TTS : Utilisation Standard (Échantillon 1)

Exemple de génération de dialogue de base de Dia 1.6B TTS.

Dia 1.6B TTS : Conversation Naturelle (Échantillon 2)

Démonstration d'interaction décontractée avec Dia 1.6B TTS.

Dia 1.6B TTS : Dialogue Émotionnel (Échantillon 3)

Exemple de parole expressive et à haute émotion en utilisant Dia 1.6B TTS.

Dia 1.6B TTS : Sons Non Verbaux (Échantillon 4)

Comprend toux, reniflements, rires générés par Dia 1.6B TTS.

Dia 1.6B TTS : Exemple de Rap (Échantillon 5)

Démonstration de rythme et de fluidité avec Dia 1.6B TTS.

Dia 1.6B TTS : Fonction de Prompt Audio (Échantillon 6)

Exemple utilisant des prompts audio pour le clonage vocal avec Dia 1.6B TTS.

Note : Pour une sortie de haute qualité avec des prompts audio dans Dia 1.6B TTS, préfixez le script correspondant au texte d'entrée. L'automatisation de la transcription pour une utilisation plus facile est envisagée.

Exemples Vidéo de Dia 1.6B TTS

Dia 1.6B TTS : Qualité Podcast

Présentation du potentiel pour la génération de podcasts en utilisant Dia 1.6B TTS.

Dia 1.6B TTS : Introduction du Modèle

Mise en avant du modèle à 1.6B paramètres de Dia 1.6B TTS.

Dia 1.6B TTS : Dialogue Ultra-Réaliste

Démonstration de la génération en une seule passe avec Dia 1.6B TTS.

Comment Fonctionne Dia 1.6B TTS : Du Texte au Dialogue Réaliste

1. Préparez Votre Script pour Dia 1.6B TTS

Écrivez ou collez le texte que vous voulez que Dia 1.6B TTS convertisse. Utilisez des balises simples comme [S1] et [S2] avant les phrases pour attribuer différentes voix de locuteurs. Vous pouvez également inclure des indices non verbaux comme (rires) ou (toux) pour plus de réalisme.
2. (Optionnel) Fournissez un Prompt Audio pour Dia 1.6B TTS

Pour cloner une voix spécifique ou guider le ton émotionnel avec Dia 1.6B TTS, téléchargez un court échantillon audio (5-15 secondes) et préfixez sa transcription exacte (avec les balises de locuteur) à votre script principal dans l'entrée.
3. Générez l'Audio avec Dia 1.6B TTS

Exécutez le modèle Dia 1.6B TTS (soit localement via l'application, soit en utilisant la démo en ligne). Le modèle traite l'ensemble du script en une seule passe, générant un dialogue fluide.
4. Écoutez et Téléchargez la Sortie de Dia 1.6B TTS

Écoutez directement l'audio généré par Dia 1.6B TTS. La sortie capture l'intonation naturelle, le rythme et même les indices non verbaux, créant une expérience d'écoute ultra-réaliste. Téléchargez le fichier audio pour vos projets.

Guide d'Installation de Dia 1.6B TTS

### Installation Windows

1. Clonez le dépôt
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Créez un environnement virtuel Python (Python 3.10 recommandé)
   python -m venv venv
   venv\Scripts\activate.bat

3. Installez les dépendances
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. Téléchargez les poids du modèle
   # Ils seront téléchargés automatiquement ou peuvent être téléchargés manuellement depuis Hugging Face

5. Lancez l'application
   python app.py

### Installation Linux / macOS
# Les étapes sont généralement identiques pour Linux et macOS.

# Assurez-vous que les prérequis sont satisfaits : Python 3.8+, Git, GPU compatible CUDA (pour l'utilisation du GPU).

# 1. Clonez le dépôt
git clone https://github.com/nari-labs/dia.git
cd dia

# --- Option A (Recommandée) : Utilisation de uv ---
# uv gère automatiquement les environnements virtuels et les dépendances.
# Installez uv si vous ne l'avez pas déjà : pip install uv
uv run app.py

# --- Option B (Manuelle) : Utilisation de venv + pip ---
# Si vous préférez une configuration manuelle :

# 2. Créez et activez un environnement virtuel (Python 3.10 recommandé)
python -m venv .venv
source .venv/bin/activate

# 3. Installez les Dépendances
# (Assurez-vous que votre environnement virtuel est actif)
# Mettez à jour pip
python -m pip install --upgrade pip

# Installez PyTorch correspondant à votre version CUDA (Consultez https://pytorch.org/)
# Exemple pour CUDA 12.1 :
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# Exemple pour CPU uniquement (sera lent) :
# pip install torch torchvision torchaudio

# Installez les autres dépendances (consultez pyproject.toml pour la liste exacte)
pip install -r requirements.txt

# 4. Lancez l'application
# (Assurez-vous d'être dans le répertoire 'dia' et que votre environnement est actif)
python app.py

# --- Accédez à l'Interface ---
# Ouvrez votre navigateur et naviguez vers : http://127.0.0.1:7860
# (Vérifiez la sortie du terminal pour l'URL exacte)

### Utilisation de la Démo en Ligne de Dia 1.6B TTS

Vous pouvez essayer Dia 1.6B TTS directement sur Hugging Face Spaces :
https://huggingface.co/spaces/nari-labs/Dia-1.6B

1. Visitez la page
2. Entrez votre texte (avec les balises [S1], [S2], etc. pour spécifier les interlocuteurs)
3. Téléchargez éventuellement une invite audio
4. Cliquez sur le bouton de génération
5. Écoutez et téléchargez l'audio de sortie

Informations Techniques sur Dia 1.6B TTS

Diagramme d'Architecture de Dia 1.6B TTS

Dia 1.6B TTS - Modèle de Synthèse de Dialogue Ultra-Réaliste

Dia 1.6B TTS est un modèle de text-to-speech de pointe avec 1.6B paramètres qui génère des voix humaines avec une intonation, un rythme et une émotion naturels. Sur les GPU d'entreprise, Dia 1.6B TTS peut générer de l'audio en temps réel, avec un GPU A4000 produisant environ 40 tokens/seconde (86 tokens équivalant à 1 seconde d'audio).

La version complète nécessite environ 10 Go de VRAM pour fonctionner. Une version quantifiée de Dia 1.6B TTS est prévue pour les mises à jour futures afin d'améliorer l'accessibilité sur le matériel bas de gamme.

Dépôt GitHub pour Dia 1.6B TTS Démo en Ligne de Dia 1.6B TTS

Modèle Vocal IA Ultra-Réaliste pour Dialogue