Dia 1.6B TTSとは?
Dia 1.6B TTSは、超リアルな対話合成のために設計された最先端のAIテキスト読み上げモデルです。Nari Labsによって開発され、Apache 2.0ライセンスの下でリリースされたDia 1.6B TTSは、商用ソリューションに匹敵する自然で表現力豊かな音声出力を提供します。
- Dia 1.6B TTSを使用した自然なイントネーション、リズム、感情表現を持つ音声合成
- Dia 1.6B TTSによる最適化されたマルチスピーカー対話生成
- 10GBのVRAMで動作する16億パラメータモデル
- 音声プロンプトによる音声クローニング機能
Dia 1.6B TTSのコア機能
Dia 1.6B TTS 卓越した音声品質
Dia 1.6B TTSは、人間のようなイントネーション、リズム、感情を持つ信じられないほど自然な音声を生成します。高度なAIモデルは、人間の声とほとんど区別がつかない音声を作成します。
Dia 1.6B TTS: マルチスピーカーサポート
[S1]や[S2]などの簡単なタグを使用してテキスト内の異なる声を指定し、Dia 1.6B TTSで一貫性のある自然な対話を簡単に作成できます。
Dia 1.6B TTSによる音声クローニング
音声プロンプト機能を使用して特定の音声特性をクローンし、Dia 1.6B TTSで複数の生成にわたって一貫した音声アイデンティティを実現し、パーソナライズされた音声出力を可能にします。
Dia 1.6B TTS: オープンソースモデル
Apache 2.0ライセンスの下でリリースされ、個人および商用目的での無料使用が可能です。Dia 1.6B TTSの完全なモデルウェイトとコードはGitHubで入手できます。
Dia 1.6B TTS 音声デモ
Dia 1.6B TTS: 標準使用 (サンプル1)
Dia 1.6B TTSの基本的な対話生成例。
Dia 1.6B TTS: 自然な会話 (サンプル2)
Dia 1.6B TTSを使用したカジュアルな対話を実演。
Dia 1.6B TTS: 感情的な対話 (サンプル3)
Dia 1.6B TTSを使用した表現力豊かで感情的な音声の例。
Dia 1.6B TTS: 非言語的な音 (サンプル4)
Dia 1.6B TTSによって生成された咳、鼻をすする、笑いを含みます。
Dia 1.6B TTS: ラップの例 (サンプル5)
Dia 1.6B TTSを使用したリズムと韻を披露。
Dia 1.6B TTS: 音声プロンプト機能 (サンプル6)
Dia 1.6B TTS音声プロンプトを使用した音声クローニングの例。
注:Dia 1.6B TTSで高品質出力のために音声プロンプトを使用するには、対応するスクリプトを入力テキストの前に追加してください。使いやすさのため、自動転写が検討されています。
Dia 1.6B TTS ビデオ例
Dia 1.6B TTS: ポッドキャスト品質
Dia 1.6B TTSを使用したポッドキャスト生成の可能性を実演。
Dia 1.6B TTS: モデル紹介
Dia 1.6B TTSの16億パラメータモデルをハイライト。
Dia 1.6B TTS: 超リアルな対話
Dia 1.6B TTSを使用したワンパス生成を披露。
Dia 1.6B TTSの仕組み:テキストからリアルな対話へ
1. Dia 1.6B TTS用のスクリプトを準備
Dia 1.6B TTSに変換してもらいたいテキストを書くか貼り付けます。[S1]や[S2]などの簡単なタグを文の前に使用して、異なる話者の声を割り当てます。(笑い)や(咳)などの非言語的な手がかりを含めて、リアリティを追加することもできます。
2. (オプション) Dia 1.6B TTSに音声プロンプトを提供
Dia 1.6B TTSで特定の声をクローンしたり感情的なトーンを導くには、短い音声サンプル(5-15秒)とその正確な転写(話者タグ付き)を、入力のメインスクリプトの前に追加してアップロードします。
3. Dia 1.6B TTSで音声を生成
Dia 1.6B TTSモデルを実行します(アプリを介してローカルで、またはオンラインデモを使用)。モデルはスクリプト全体を1回で処理し、シームレスな対話を生成します。
4. Dia 1.6B TTS出力を聴いてダウンロード
Dia 1.6B TTSから直接生成された音声を再生します。出力は自然なイントネーション、リズム、さらには非言語的な手がかりをキャプチャし、超リアルなリスニング体験を作成します。プロジェクト用に音声ファイルをダウンロードします。
Dia 1.6B TTS インストールガイド
### Windowsインストール
1. リポジトリをクローン
git clone https://github.com/nari-labs/dia.git
cd dia
2. Python仮想環境を作成 (Python 3.10推奨)
python -m venv venv
venv\Scripts\activate.bat
3. 依存関係をインストール
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. モデルウェイトをダウンロード
# これらは自動的にダウンロードされるか、Hugging Faceから手動でダウンロードできます
5. アプリケーションを起動
python app.pyDia 1.6B TTS 技術情報

Dia 1.6B TTS - 超リアルな対話合成モデル
Dia 1.6B TTSは、自然なイントネーション、リズム、感情を持つ人間のような音声を生成する16億パラメータの最先端テキスト読み上げモデルです。エンタープライズグレードのGPUでは、Dia 1.6B TTSはリアルタイムで音声を生成でき、A4000 GPUは約40トークン/秒を生成します(86トークンが音声の1秒に相当)。
フルバージョンの実行には約10GBのVRAMが必要です。Dia 1.6B TTSの量子化バージョンは、ローエンドハードウェアでのアクセシビリティを向上させるために、将来のアップデートで計画されています。
Dia TTS 料金
Dia TTS音声生成クレジットを購入して、プロフェッショナルなAIテキスト読み上げサービスを体験してください。
Basic
よりお得な価格の年次Basicプラン。
- 年間 12000 クレジット (1000/月)
- 年次請求 ($94.80/年)
- 高品質オーディオ出力
- 標準カスタマーサポート
年次割引!月次より20%オフ!
Pro
プロフェッショナル向けの最良の選択、年次Proプラン。
- 年間 26400 クレジット (2200/月)
- 年次請求 ($190.80/年)
- 高品質オーディオ出力
- 優先カスタマーサポート
年次割引!月次より20%オフ!
Ultra
チームや企業に最適な年次Ultraプラン。
- 年間 54000 クレジット (4500/月)
- 年次請求 ($358.80/年)
- 高品質オーディオ出力
- VIPカスタマーサポート
年次割引!月次より19%オフ!
