Nari Labsによって開発されたオープンソースの1.6Bパラメータテキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような声を生成します。Dia 1.6B TTSをご覧ください。
読み込み中... 3秒
Dia 1.6B TTSは、超リアルな対話合成のために設計された最先端のAIテキスト読み上げモデルです。Nari Labsによって開発され、Apache 2.0ライセンスの下でリリースされたDia 1.6B TTSは、商用ソリューションに匹敵する自然で表現力豊かな音声出力を提供します。
Dia 1.6B TTSは、人間のようなイントネーション、リズム、感情を持つ信じられないほど自然な響きの声を生成します。高度なAIモデルは、人間の声と実質的に区別がつかない音声を生成します。
テキスト内で[S1]や[S2]のような単純なタグを使用して、複数の話者との対話を簡単に作成し、Dia 1.6B TTSで一貫した自然な会話を維持します。
オーディオプロンプト機能を使用して特定の声の特徴をクローンし、Dia 1.6B TTSでパーソナライズされた音声出力のために、複数の生成にわたって一貫した声のアイデンティティを可能にします。
Apache 2.0ライセンスの下でリリースされており、個人および商用目的での無料利用が可能です。Dia 1.6B TTSの完全なモデルウェイトとコードはGitHubで入手できます。
Dia 1.6B TTSによる基本的な対話生成例。
Dia 1.6B TTSによるカジュアルなインタラクションのデモンストレーション。
Dia 1.6B TTSを使用した表現力豊かで感情的な音声の例。
Dia 1.6B TTSによって生成された咳、鼻をすする音、笑い声を含む。
Dia 1.6B TTSによるリズムとフローのデモンストレーション。
Dia 1.6B TTSを使用した音声クローニングのためのオーディオプロンプト使用例。
注意:Dia 1.6B TTSでオーディオプロンプトを使用して高品質な出力を得るには、対応するスクリプトを入力テキストの前に付けてください。使いやすさ向上のための文字起こしの自動化が検討されています。
Dia 1.6B TTSを使用したポッドキャスト生成の可能性を示す。
Dia 1.6B TTSの1.6Bパラメータモデルを強調。
Dia 1.6B TTSによるシングルパス生成のデモンストレーション。
Dia 1.6B TTSに変換させたいテキストを記述またはペーストします。文の前に[S1]
や[S2]
のような簡単なタグを使用して、異なる話者の声を割り当てます。リアリズムを高めるために(笑)
や(咳)
のような非言語的なキューを含めることもできます。
特定の声をクローンしたり、感情的なトーンをDia 1.6B TTSでガイドするには、短いオーディオサンプル(5〜15秒)をアップロードし、その正確なトランスクリプト(話者タグ付き)を入力のメインスクリプトの前に付けます。
Dia 1.6B TTSモデルを実行します(ローカルのアプリ経由、またはオンラインデモを使用)。モデルはスクリプト全体を1パスで処理し、シームレスな対話を生成します。
Dia 1.6B TTSから生成されたオーディオを直接再生します。出力は自然なイントネーション、リズム、さらには非言語的なキューも捉え、超リアルなリスニング体験を生み出します。プロジェクト用にオーディオファイルをダウンロードします。
### Windowsでのインストール
1. リポジトリをクローンする
git clone https://github.com/nari-labs/dia.git
cd dia
2. Pythonの仮想環境を作成する(Python 3.10推奨)
python -m venv venv
venv\Scripts\activate.bat
3. 依存関係をインストールする
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. モデルの重みをダウンロードする
# 自動的にダウンロードされるか、Hugging Faceから手動でダウンロードできます
5. アプリケーションを起動する
python app.py
### Linux / macOSでのインストール
# 手順はLinuxとmacOSで基本的に同じです。
# 前提条件を満たしていることを確認:Python 3.8+、Git、CUDA対応GPU(GPU使用の場合)。
# 1. リポジトリをクローンする
git clone https://github.com/nari-labs/dia.git
cd dia
# --- オプションA(推奨):uvを使用 ---
# uvは仮想環境と依存関係を自動的に処理します。
# まだuvをインストールしていない場合:pip install uv
uv run app.py
# --- オプションB(手動):venv + pipを使用 ---
# 手動セットアップを好む場合:
# 2. 仮想環境を作成してアクティベートする(Python 3.10推奨)
python -m venv .venv
source .venv/bin/activate
# 3. 依存関係をインストールする
# (仮想環境がアクティブであることを確認)
# pipを更新
python -m pip install --upgrade pip
# CUDA版に合わせたPyTorchをインストール(https://pytorch.orgで確認)
# CUDA 12.1の例:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CPUのみの例(処理は遅くなります):
# pip install torch torchvision torchaudio
# その他の要件をインストール(正確なリストはpyproject.tomlを参照)
pip install -r requirements.txt
# 4. アプリケーションを起動する
# ('dia'ディレクトリにいること、環境がアクティブであることを確認)
python app.py
# --- インターフェースにアクセス ---
# ブラウザを開き、次のURLにアクセス:http://127.0.0.1:7860
# (正確なURLはターミナル出力で確認)
### Dia 1.6B TTS オンラインデモの使用
Dia 1.6B TTSはHugging Face Spacesで直接試すことができます:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
1. ページにアクセスする
2. テキストを入力する([S1]、[S2]などのタグで話者を指定)
3. 必要に応じて音声プロンプトをアップロードする
4. 生成ボタンをクリックする
5. 出力音声を聴いてダウンロードする
Dia 1.6B TTSは、1.6Bパラメータを持つ最先端のテキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような声を生成します。エンタープライズグレードのGPUでは、Dia 1.6B TTSはリアルタイムでオーディオを生成でき、A4000 GPUは約40トークン/秒を生成します(86トークンが1秒のオーディオに相当)。
フルバージョンを実行するには約10GBのVRAMが必要です。Dia 1.6B TTSの量子化バージョンは、ローエンドハードウェアでのアクセシビリティを向上させるために将来のアップデートで計画されています。