Dia 1.6B TTS
Ultra-Realistyczny Model Dialogu Mowy AI
Model text-to-speech open-source z 1,6B parametrów od Nari Labs generujący mowę podobną do ludzkiej z naturalną intonacją, rytmem i emocjami. Poznaj Dia 1.6B TTS.

Czym jest Dia 1.6B TTS?
Dia 1.6B TTS to najnowocześniejszy model AI text-to-speech zaprojektowany dla ultra-realistycznej syntezy dialogu. Opracowany przez Nari Labs i wydany na licencji Apache 2.0, Dia 1.6B TTS oferuje naturalny i ekspresyjny wynik mowy rywalizujący z rozwiązaniami komercyjnymi.
- Synteza mowy z naturalną intonacją, rytmem i ekspresją emocjonalną przy użyciu Dia 1.6B TTS
- Zoptymalizowane generowanie dialogu wielomówcy z Dia 1.6B TTS
- Model 1,6B parametrów działający na 10GB VRAM
- Możliwości klonowania głosu przez audio prompting
Główne Funkcje Dia 1.6B TTS
Dia 1.6B TTS Wyjątkowa Jakość Mowy
Dia 1.6B TTS tworzy niezwykle naturalnie brzmiące głosy z ludzką intonacją, rytmem i emocjami. Zaawansowany model AI tworzy mowę, która jest prawie nie do odróżnienia od ludzkich głosów.
Dia 1.6B TTS: Obsługa Wielu Mówców
Łatwo twórz rozmowy wielu mówców używając prostych tagów jak [S1] i [S2] aby określić różne głosy w tekście, utrzymując spójny i naturalny dialog z Dia 1.6B TTS.
Klonowanie Głosu z Dia 1.6B TTS
Klonuj specyficzne charakterystyki wokalne używając funkcji audio prompting, umożliwiając spójną tożsamość głosową w wielu generacjach dla spersonalizowanego wyniku mowy z Dia 1.6B TTS.
Dia 1.6B TTS: Model Open Source
Wydany na licencji Apache 2.0, pozwalający na bezpłatne użycie do celów osobistych i komercyjnych. Kompletne wagi modelu i kod dla Dia 1.6B TTS są dostępne na GitHub.
Demo Audio Dia 1.6B TTS
Dia 1.6B TTS: Standardowe Użycie (Przykład 1)
Podstawowy przykład generowania dialogu z Dia 1.6B TTS.
Dia 1.6B TTS: Naturalna Rozmowa (Przykład 2)
Demonstruje zwykłe interakcje używając Dia 1.6B TTS.
Dia 1.6B TTS: Dialog Emocjonalny (Przykład 3)
Ekspresywny przykład mowy o wysokich emocjach używając Dia 1.6B TTS.
Dia 1.6B TTS: Dźwięki Niewerbalne (Przykład 4)
Zawiera kaszel, pociąganie nosem, śmiech generowane przez Dia 1.6B TTS.
Dia 1.6B TTS: Przykład Rap (Przykład 5)
Pokazuje rytm i rym używając Dia 1.6B TTS.
Dia 1.6B TTS: Funkcja Audio Prompting (Przykład 6)
Przykład klonowania głosu używając audio prompts Dia 1.6B TTS.
Uwaga: Aby używać audio prompts dla wysokiej jakości wyniku w Dia 1.6B TTS, dodaj odpowiedni skrypt przed tekstem wejściowym. Rozważana jest automatyczna transkrypcja dla łatwości użycia.
Przykłady Wideo Dia 1.6B TTS
Dia 1.6B TTS: Jakość Podcastu
Demonstruje potencjał generowania podcastów używając Dia 1.6B TTS.
Dia 1.6B TTS: Wprowadzenie do Modelu
Podkreśla model 1,6B parametrów Dia 1.6B TTS.
Dia 1.6B TTS: Ultra-Realistyczny Dialog
Pokazuje generowanie jednorazowe używając Dia 1.6B TTS.
Jak Działa Dia 1.6B TTS: Od Tekstu do Realistycznego Dialogu
1. Przygotuj Swój Skrypt dla Dia 1.6B TTS
Napisz lub wklej tekst, który chcesz aby Dia 1.6B TTS przekonwertował. Użyj prostych tagów jak [S1] i [S2] przed zdaniami aby przypisać różne głosy mówców. Możesz również dołączyć niewerbalne sygnały jak (śmieje się) lub (kaszle) aby dodać realizmu.
2. (Opcjonalnie) Dostarcz Audio Prompts do Dia 1.6B TTS
Aby sklonować konkretny głos lub nakierować ton emocjonalny z Dia 1.6B TTS, prześlij krótką próbkę audio (5-15 sekund) i jej dokładną transkrypcję (z tagami mówców) dodaną przed głównym skryptem w twoim wejściu.
3. Generuj Audio z Dia 1.6B TTS
Uruchom model Dia 1.6B TTS (lokalnie przez aplikację lub używając demo online). Model przetwarza cały skrypt w jednym przebiegu, generując płynny dialog.
4. Posłuchaj i Pobierz Wynik Dia 1.6B TTS
Odtwórz wygenerowane audio bezpośrednio z Dia 1.6B TTS. Wynik przechwytuje naturalną intonację, rytm, a nawet sygnały niewerbalne, tworząc ultra-realistyczne doświadczenie słuchania. Pobierz plik audio dla swoich projektów.
Przewodnik Instalacji Dia 1.6B TTS
### Windows Installation
1. Clone the repository
git clone https://github.com/nari-labs/dia.git
cd dia
2. Create a Python virtual environment (Python 3.10 recommended)
python -m venv venv
venv\Scripts\activate.bat
3. Install dependencies
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. Download model weights
# These will download automatically or can be manually downloaded from Hugging Face
5. Launch the application
python app.pyInformacje Techniczne Dia 1.6B TTS

Dia 1.6B TTS - Ultra-Realistyczny Model Syntezy Dialogu
Dia 1.6B TTS to najnowocześniejszy model text-to-speech z 1,6B parametrów generujący głosy podobne do ludzkich z naturalną intonacją, rytmem i emocjami. Na GPU klasy przedsiębiorstwa, Dia 1.6B TTS może generować audio w czasie rzeczywistym, z GPU A4000 produkującym około 40 tokenów/sekundę (86 tokenów równa się 1 sekundzie audio).
Pełna wersja wymaga około 10GB VRAM do działania. Skwantyzowane wersje Dia 1.6B TTS są planowane w przyszłych aktualizacjach aby poprawić dostępność na sprzęcie niższej klasy.
Cennik Dia TTS
Kup kredyty generowania głosu Dia TTS aby doświadczyć profesjonalnych usług AI text-to-speech.
Basic
Roczny plan Basic z lepszą ceną.
- 12000 kredytów rocznie (1000/miesiąc)
- Rozliczane rocznie ($94.80/rok)
- Wysokiej jakości wyjścia audio
- Standardowe wsparcie klientów
Roczne oszczędności! 20% taniej vs miesięczne!
Pro
Roczny plan Pro, najlepszy wybór dla profesjonalistów.
- 26400 kredytów rocznie (2200/miesiąc)
- Rozliczane rocznie ($190.80/rok)
- Wysokiej jakości wyjścia audio
- Priorytetowe wsparcie klientów
Roczne oszczędności! 20% taniej vs miesięczne!
Ultra
Roczny plan Ultra, idealny dla zespołów i przedsiębiorstw.
- 54000 kredytów rocznie (4500/miesiąc)
- Rozliczane rocznie ($358.80/rok)
- Wysokiej jakości wyjścia audio
- Wsparcie klientów VIP
Roczne oszczędności! 19% taniej vs miesięczne!