Dia 1.6B TTS

対話のための超リアルなAI音声モデル

Nari Labsによって開発されたオープンソースの1.6Bパラメータテキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような声を生成します。Dia 1.6B TTSをご覧ください。

Dia TTS ヒーローアニメーション

読み込み中... 3

Dia 1.6B TTSとは?

Dia 1.6B TTSは、超リアルな対話合成のために設計された最先端のAIテキスト読み上げモデルです。Nari Labsによって開発され、Apache 2.0ライセンスの下でリリースされたDia 1.6B TTSは、商用ソリューションに匹敵する自然で表現力豊かな音声出力を提供します。

  • Dia 1.6B TTSを使用した自然なイントネーション、リズム、感情表現による音声合成
  • Dia 1.6B TTSによる複数話者での会話生成に最適化
  • 10GB VRAMで実行可能な1.6Bパラメータモデル
  • 音声プロンプトによる音声クローニング機能

Dia 1.6B TTSの主な特徴

Dia 1.6B TTSによる優れた音声品質

Dia 1.6B TTSは、人間のようなイントネーション、リズム、感情を持つ信じられないほど自然な響きの声を生成します。高度なAIモデルは、人間の声と実質的に区別がつかない音声を生成します。

Dia 1.6B TTS:複数話者サポート

テキスト内で[S1]や[S2]のような単純なタグを使用して、複数の話者との対話を簡単に作成し、Dia 1.6B TTSで一貫した自然な会話を維持します。

Dia 1.6B TTSを使用した音声クローニング

オーディオプロンプト機能を使用して特定の声の特徴をクローンし、Dia 1.6B TTSでパーソナライズされた音声出力のために、複数の生成にわたって一貫した声のアイデンティティを可能にします。

Dia 1.6B TTS:オープンソースモデル

Apache 2.0ライセンスの下でリリースされており、個人および商用目的での無料利用が可能です。Dia 1.6B TTSの完全なモデルウェイトとコードはGitHubで入手できます。

Dia 1.6B TTS オーディオデモ

Dia 1.6B TTS:標準使用例 (サンプル1)

Dia 1.6B TTSによる基本的な対話生成例。

Dia 1.6B TTS:自然な会話 (サンプル2)

Dia 1.6B TTSによるカジュアルなインタラクションのデモンストレーション。

Dia 1.6B TTS:感情的な対話 (サンプル3)

Dia 1.6B TTSを使用した表現力豊かで感情的な音声の例。

Dia 1.6B TTS:非言語音 (サンプル4)

Dia 1.6B TTSによって生成された咳、鼻をすする音、笑い声を含む。

Dia 1.6B TTS:ラップ例 (サンプル5)

Dia 1.6B TTSによるリズムとフローのデモンストレーション。

Dia 1.6B TTS:オーディオプロンプト機能 (サンプル6)

Dia 1.6B TTSを使用した音声クローニングのためのオーディオプロンプト使用例。

注意:Dia 1.6B TTSでオーディオプロンプトを使用して高品質な出力を得るには、対応するスクリプトを入力テキストの前に付けてください。使いやすさ向上のための文字起こしの自動化が検討されています。

Dia 1.6B TTS ビデオ例

Dia 1.6B TTS:ポッドキャスト品質

Dia 1.6B TTSを使用したポッドキャスト生成の可能性を示す。

Dia 1.6B TTS:モデル紹介

Dia 1.6B TTSの1.6Bパラメータモデルを強調。

Dia 1.6B TTS:超リアルな対話

Dia 1.6B TTSによるシングルパス生成のデモンストレーション。

Dia 1.6B TTSの仕組み:テキストからリアルな対話へ

  1. 1. Dia 1.6B TTS用のスクリプトを準備する

    Dia 1.6B TTSに変換させたいテキストを記述またはペーストします。文の前に[S1][S2]のような簡単なタグを使用して、異なる話者の声を割り当てます。リアリズムを高めるために(笑)(咳)のような非言語的なキューを含めることもできます。

  2. 2. (オプション) Dia 1.6B TTS用のオーディオプロンプトを提供する

    特定の声をクローンしたり、感情的なトーンをDia 1.6B TTSでガイドするには、短いオーディオサンプル(5〜15秒)をアップロードし、その正確なトランスクリプト(話者タグ付き)を入力のメインスクリプトの前に付けます。

  3. 3. Dia 1.6B TTSでオーディオを生成する

    Dia 1.6B TTSモデルを実行します(ローカルのアプリ経由、またはオンラインデモを使用)。モデルはスクリプト全体を1パスで処理し、シームレスな対話を生成します。

  4. 4. Dia 1.6B TTSの出力を聴いてダウンロードする

    Dia 1.6B TTSから生成されたオーディオを直接再生します。出力は自然なイントネーション、リズム、さらには非言語的なキューも捉え、超リアルなリスニング体験を生み出します。プロジェクト用にオーディオファイルをダウンロードします。

Dia 1.6B TTS インストールガイド

### Windowsでのインストール

1. リポジトリをクローンする
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Pythonの仮想環境を作成する(Python 3.10推奨)
   python -m venv venv
   venv\Scripts\activate.bat

3. 依存関係をインストールする
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. モデルの重みをダウンロードする
   # 自動的にダウンロードされるか、Hugging Faceから手動でダウンロードできます

5. アプリケーションを起動する
   python app.py
### Linux / macOSでのインストール
# 手順はLinuxとmacOSで基本的に同じです。

# 前提条件を満たしていることを確認:Python 3.8+、Git、CUDA対応GPU(GPU使用の場合)。

# 1. リポジトリをクローンする
git clone https://github.com/nari-labs/dia.git
cd dia

# --- オプションA(推奨):uvを使用 ---
# uvは仮想環境と依存関係を自動的に処理します。
# まだuvをインストールしていない場合:pip install uv
uv run app.py

# --- オプションB(手動):venv + pipを使用 ---
# 手動セットアップを好む場合:

# 2. 仮想環境を作成してアクティベートする(Python 3.10推奨)
python -m venv .venv
source .venv/bin/activate

# 3. 依存関係をインストールする
# (仮想環境がアクティブであることを確認)
# pipを更新
python -m pip install --upgrade pip

# CUDA版に合わせたPyTorchをインストール(https://pytorch.orgで確認)
# CUDA 12.1の例:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CPUのみの例(処理は遅くなります):
# pip install torch torchvision torchaudio

# その他の要件をインストール(正確なリストはpyproject.tomlを参照)
pip install -r requirements.txt

# 4. アプリケーションを起動する
# ('dia'ディレクトリにいること、環境がアクティブであることを確認)
python app.py

# --- インターフェースにアクセス ---
# ブラウザを開き、次のURLにアクセス:http://127.0.0.1:7860
# (正確なURLはターミナル出力で確認)
### Dia 1.6B TTS オンラインデモの使用

Dia 1.6B TTSはHugging Face Spacesで直接試すことができます:
https://huggingface.co/spaces/nari-labs/Dia-1.6B

1. ページにアクセスする
2. テキストを入力する([S1]、[S2]などのタグで話者を指定)
3. 必要に応じて音声プロンプトをアップロードする
4. 生成ボタンをクリックする
5. 出力音声を聴いてダウンロードする

Dia 1.6B TTS 技術情報

Dia 1.6B TTS アーキテクチャ図

Dia 1.6B TTS - 超リアルな対話合成モデル

Dia 1.6B TTSは、1.6Bパラメータを持つ最先端のテキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような声を生成します。エンタープライズグレードのGPUでは、Dia 1.6B TTSはリアルタイムでオーディオを生成でき、A4000 GPUは約40トークン/秒を生成します(86トークンが1秒のオーディオに相当)。

フルバージョンを実行するには約10GBのVRAMが必要です。Dia 1.6B TTSの量子化バージョンは、ローエンドハードウェアでのアクセシビリティを向上させるために将来のアップデートで計画されています。