Dia 1.6B TTS

Modèle de Dialogue Vocal IA Ultra-Réaliste

Un modèle de synthèse vocale open-source avec 1,6B de paramètres de Nari Labs qui génère une parole semblable à celle des humains avec intonation, rythme et émotion naturels. Découvrez Dia 1.6B TTS.

Dia TTS Hero Animation

Qu'est-ce que Dia 1.6B TTS?

Dia 1.6B TTS est un modèle de synthèse vocale IA de pointe conçu pour la synthèse de dialogue ultra-réaliste. Développé par Nari Labs et publié sous licence Apache 2.0, Dia 1.6B TTS offre une sortie vocale naturelle et expressive qui rivalise avec les solutions commerciales.

  • Synthèse vocale avec intonation naturelle, rythme et expression émotionnelle utilisant Dia 1.6B TTS
  • Génération de dialogue multi-locuteurs optimisée avec Dia 1.6B TTS
  • Modèle de 1,6B paramètres qui fonctionne avec 10GB de VRAM
  • Capacités de clonage vocal par prompting audio

Fonctionnalités Principales de Dia 1.6B TTS

Dia 1.6B TTS Qualité Vocale Exceptionnelle

Dia 1.6B TTS produit des voix incroyablement naturelles avec intonation, rythme et émotion semblables à celles des humains. Le modèle IA avancé crée une parole qui est presque indiscernable des voix humaines.

Dia 1.6B TTS: Support Multi-Locuteurs

Créez facilement des conversations multi-locuteurs en utilisant des balises simples comme [S1] et [S2] pour spécifier différentes voix dans votre texte, maintenant un dialogue cohérent et naturel avec Dia 1.6B TTS.

Clonage Vocal avec Dia 1.6B TTS

Clonez des caractéristiques vocales spécifiques en utilisant la fonction de prompting audio, permettant une identité vocale cohérente à travers plusieurs générations pour une sortie vocale personnalisée avec Dia 1.6B TTS.

Dia 1.6B TTS: Modèle Open Source

Publié sous licence Apache 2.0, permettant une utilisation gratuite à des fins personnelles et commerciales. Les poids complets du modèle et le code pour Dia 1.6B TTS sont disponibles sur GitHub.

Démos Audio de Dia 1.6B TTS

Dia 1.6B TTS: Utilisation Standard (Échantillon 1)

Exemple de génération de dialogue de base de Dia 1.6B TTS.

Dia 1.6B TTS: Conversation Naturelle (Échantillon 2)

Démontre des interactions décontractées utilisant Dia 1.6B TTS.

Dia 1.6B TTS: Dialogue Émotionnel (Échantillon 3)

Exemple de parole expressive et très émotionnelle utilisant Dia 1.6B TTS.

Dia 1.6B TTS: Sons Non Verbaux (Échantillon 4)

Inclut toux, reniflement, rires générés par Dia 1.6B TTS.

Dia 1.6B TTS: Exemple de Rap (Échantillon 5)

Met en valeur le rythme et la rime utilisant Dia 1.6B TTS.

Dia 1.6B TTS: Fonction de Prompting Audio (Échantillon 6)

Exemple de clonage vocal utilisant des prompts audio de Dia 1.6B TTS.

Note: Pour utiliser des prompts audio pour une sortie de haute qualité dans Dia 1.6B TTS, ajoutez le script correspondant au début de votre texte d'entrée. La transcription automatique est envisagée pour faciliter l'utilisation.

Exemples Vidéo de Dia 1.6B TTS

Dia 1.6B TTS: Qualité Podcast

Démontre le potentiel de génération de podcasts utilisant Dia 1.6B TTS.

Dia 1.6B TTS: Introduction au Modèle

Met en évidence le modèle de 1,6B paramètres de Dia 1.6B TTS.

Dia 1.6B TTS: Dialogue Ultra-Réaliste

Présente la génération en une passe utilisant Dia 1.6B TTS.

Comment Fonctionne Dia 1.6B TTS: Du Texte au Dialogue Réaliste

  1. 1. Préparez Votre Script pour Dia 1.6B TTS

    Écrivez ou collez le texte que vous voulez que Dia 1.6B TTS convertisse. Utilisez des balises simples comme [S1] et [S2] avant les phrases pour assigner différentes voix de locuteurs. Vous pouvez également inclure des indices non verbaux comme (rit) ou (tousse) pour ajouter du réalisme.

  2. 2. (Optionnel) Fournissez des Prompts Audio à Dia 1.6B TTS

    Pour cloner une voix spécifique ou guider le ton émotionnel avec Dia 1.6B TTS, téléchargez un court échantillon audio (5-15 secondes) et sa transcription précise (avec balises de locuteur) ajoutée au début du script principal dans votre entrée.

  3. 3. Générez de l'Audio avec Dia 1.6B TTS

    Exécutez le modèle Dia 1.6B TTS (localement via l'application ou en utilisant la démo en ligne). Le modèle traite l'ensemble du script en une passe, générant un dialogue fluide.

  4. 4. Écoutez et Téléchargez la Sortie de Dia 1.6B TTS

    Lisez l'audio généré directement depuis Dia 1.6B TTS. La sortie capture l'intonation naturelle, le rythme et même les indices non verbaux, créant une expérience d'écoute ultra-réaliste. Téléchargez le fichier audio pour vos projets.

Guide d'Installation de Dia 1.6B TTS

### Installation Windows

1. Cloner le dépôt
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Créer un environnement virtuel Python (Python 3.10 recommandé)
   python -m venv venv
   venv\Scripts\activate.bat

3. Installer les dépendances
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. Télécharger les poids du modèle
   # Ceux-ci se téléchargeront automatiquement ou peuvent être téléchargés manuellement depuis Hugging Face

5. Lancer l'application
   python app.py

Informations Techniques de Dia 1.6B TTS

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - Modèle de Synthèse de Dialogue Ultra-Réaliste

Dia 1.6B TTS est un modèle de synthèse vocale de pointe avec 1,6B de paramètres qui génère des voix semblables à celles des humains avec intonation, rythme et émotion naturels. Sur des GPUs de qualité professionnelle, Dia 1.6B TTS peut générer de l'audio en temps réel, avec un GPU A4000 produisant environ 40 tokens/seconde (86 tokens équivalent à 1 seconde d'audio).

La version complète nécessite environ 10GB de VRAM pour fonctionner. Des versions quantifiées de Dia 1.6B TTS sont prévues pour les mises à jour futures afin d'améliorer l'accessibilité sur le matériel bas de gamme.

Tarifs Dia TTS

Achetez des crédits de génération vocale Dia TTS pour découvrir des services professionnels de synthèse vocale IA.

Basic

Formule Basic annuelle avec un meilleur tarif.

$9.9$7.9/mois
  • 12000 crédits par an (1000/mois)
  • Facturation annuelle ($94.80/an)
  • Sorties audio de haute qualité
  • Support client standard

Économies annuelles! 20% de réduction vs mensuel!

Le Plus Populaire

Pro

Formule Pro annuelle, le meilleur choix pour les professionnels.

$19.9$15.9/mois
  • 26400 crédits par an (2200/mois)
  • Facturation annuelle ($190.80/an)
  • Sorties audio de haute qualité
  • Support client prioritaire

Économies annuelles! 20% de réduction vs mensuel!

Ultra

Formule Ultra annuelle, parfaite pour les équipes et les entreprises.

$36.9$29.9/mois
  • 54000 crédits par an (4500/mois)
  • Facturation annuelle ($358.80/an)
  • Sorties audio de haute qualité
  • Support client VIP

Économies annuelles! 19% de réduction vs mensuel!