Ein Open-Source-Text-zu-Sprache-Modell mit 1,6B Parametern, entwickelt von Nari Labs, das menschenähnliche Stimmen mit natürlicher Intonation, Rhythmus und Emotion erzeugt. Entdecken Sie Dia 1.6B TTS.
Wird geladen... 3s
Dia 1.6B TTS ist ein hochmodernes KI-Text-zu-Sprache-Modell, das für ultra-realistische Dialogsynthese entwickelt wurde. Von Nari Labs entwickelt und unter der Apache 2.0 Lizenz veröffentlicht, liefert Dia 1.6B TTS natürliche und ausdrucksstarke Sprachausgabe, die mit kommerziellen Lösungen konkurrieren kann.
Dia 1.6B TTS erzeugt unglaublich natürlich klingende Stimmen mit menschenähnlicher Intonation, Rhythmus und Emotion. Die fortschrittlichen KI-Modelle erzeugen Sprache, die von menschlichen Stimmen praktisch nicht zu unterscheiden ist.
Erstellen Sie mühelos Dialoge mit mehreren Sprechern, indem Sie einfache Tags wie [S1] und [S2] verwenden, um verschiedene Stimmen in Ihrem Text zu kennzeichnen und dabei eine konsistente natürliche Konversation mit Dia 1.6B TTS zu erhalten.
Nutzen Sie die Audio-Prompt-Funktion, um spezifische Stimmcharakteristiken zu klonen, wodurch eine konsistente Stimmidentität über mehrere Generierungen hinweg für personalisierte Sprachausgaben mit Dia 1.6B TTS ermöglicht wird.
Veröffentlicht unter der Apache 2.0 Lizenz, die eine kostenlose Nutzung sowohl für persönliche als auch kommerzielle Zwecke erlaubt. Vollständige Modellgewichte und Code für Dia 1.6B TTS sind auf GitHub verfügbar.
Grundlegendes Beispiel der Dialoggenerierung von Dia 1.6B TTS.
Demonstration lockerer Interaktion mit Dia 1.6B TTS.
Beispiel für ausdrucksstarke, emotionsgeladene Sprache mit Dia 1.6B TTS.
Enthält Husten, Schniefen, Lachen, generiert von Dia 1.6B TTS.
Demonstration von Rhythmus und Flow mit Dia 1.6B TTS.
Beispiel mit Audio-Prompts für Stimmklonen mit Dia 1.6B TTS.
Hinweis: Für hochwertige Ausgaben mit Audio-Prompts in Dia 1.6B TTS, stellen Sie das entsprechende Skript dem Eingabetext voran. Die Automatisierung der Transkription zur einfacheren Nutzung wird erwogen.
Zeigt das Potenzial für die Podcast-Generierung mit Dia 1.6B TTS.
Hervorhebung des 1,6B-Parameter-Modells von Dia 1.6B TTS.
Demonstration der Ein-Pass-Generierung mit Dia 1.6B TTS.
Schreiben oder fügen Sie den Text ein, den Dia 1.6B TTS konvertieren soll. Verwenden Sie einfache Tags wie [S1]
und [S2]
vor Sätzen, um verschiedene Sprecherstimmen zuzuweisen. Sie können auch nicht-verbale Hinweise wie (lacht)
oder (hustet)
für zusätzlichen Realismus einfügen.
Um eine bestimmte Stimme zu klonen oder den emotionalen Ton mit Dia 1.6B TTS zu steuern, laden Sie ein kurzes Audiobeispiel (5-15 Sekunden) hoch und stellen Sie dessen exaktes Transkript (mit Sprecher-Tags) Ihrem Hauptskript in der Eingabe voran.
Führen Sie das Dia 1.6B TTS-Modell aus (entweder lokal über die App oder über die Online-Demo). Das Modell verarbeitet das gesamte Skript in einem Durchgang und generiert einen nahtlosen Dialog.
Spielen Sie das generierte Audio direkt von Dia 1.6B TTS ab. Die Ausgabe erfasst natürliche Intonation, Rhythmus und sogar die nicht-verbalen Hinweise und schafft so ein ultra-realistisches Hörerlebnis. Laden Sie die Audiodatei für Ihre Projekte herunter.
### Windows-Installation
1. Klonen Sie das Repository
git clone https://github.com/nari-labs/dia.git
cd dia
2. Erstellen Sie eine Python-Virtualumgebung (Python 3.10 empfohlen)
python -m venv venv
venv\Scripts\activate.bat
3. Installieren Sie die Abhängigkeiten
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. Laden Sie die Modellgewichte herunter
# Diese werden automatisch heruntergeladen oder können manuell von Hugging Face heruntergeladen werden
5. Starten Sie die Anwendung
python app.py
### Linux / macOS Installation
# Die Schritte sind für Linux und macOS im Allgemeinen identisch.
# Stellen Sie sicher, dass die Voraussetzungen erfüllt sind: Python 3.8+, Git, CUDA-fähige GPU (für GPU-Nutzung).
# 1. Klonen Sie das Repository
git clone https://github.com/nari-labs/dia.git
cd dia
# --- Option A (Empfohlen): Verwendung von uv ---
# uv kümmert sich automatisch um virtuelle Umgebungen und Abhängigkeiten.
# Installieren Sie uv, falls noch nicht vorhanden: pip install uv
uv run app.py
# --- Option B (Manuell): Verwendung von venv + pip ---
# Wenn Sie die manuelle Einrichtung bevorzugen:
# 2. Erstellen und aktivieren Sie eine virtuelle Umgebung (Python 3.10 empfohlen)
python -m venv .venv
source .venv/bin/activate
# 3. Installieren Sie die Abhängigkeiten
# (Stellen Sie sicher, dass Ihre virtuelle Umgebung aktiv ist)
# Aktualisieren Sie pip
python -m pip install --upgrade pip
# Installieren Sie PyTorch passend zu Ihrer CUDA-Version (Prüfen Sie https://pytorch.org/)
# Beispiel für CUDA 12.1:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# Beispiel nur für CPU (wird langsam sein):
# pip install torch torchvision torchaudio
# Installieren Sie andere Anforderungen (prüfen Sie pyproject.toml für die genaue Liste)
pip install -r requirements.txt
# 4. Starten Sie die Anwendung
# (Stellen Sie sicher, dass Sie sich im 'dia'-Verzeichnis befinden und Ihre Umgebung aktiv ist)
python app.py
# --- Zugriff auf die Benutzeroberfläche ---
# Öffnen Sie Ihren Browser und navigieren Sie zu: http://127.0.0.1:7860
# (Überprüfen Sie die Terminalausgabe für die genaue URL)
### Nutzung der Dia 1.6B TTS Online-Demo
Sie können Dia 1.6B TTS direkt auf Hugging Face Spaces ausprobieren:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
1. Besuchen Sie die Seite
2. Geben Sie Ihren Text ein (mit [S1], [S2] usw. Tags, um Sprecher zu spezifizieren)
3. Optional laden Sie einen Audio-Prompt hoch
4. Klicken Sie auf den Generieren-Button
5. Hören Sie sich die Audioausgabe an und laden Sie sie herunter
Dia 1.6B TTS ist ein hochmodernes Text-to-Speech-Modell mit 1,6B Parametern, das menschenähnliche Stimmen mit natürlicher Intonation, Rhythmus und Emotion generiert. Auf Enterprise-GPUs kann Dia 1.6B TTS Audio in Echtzeit generieren, wobei eine A4000 GPU etwa 40 Token/Sekunde produziert (86 Token entsprechen 1 Sekunde Audio).
Die Vollversion benötigt etwa 10 GB VRAM zum Ausführen. Eine quantisierte Version von Dia 1.6B TTS ist für zukünftige Updates geplant, um die Zugänglichkeit auf Low-End-Hardware zu verbessern.