Dia 1.6B TTS

超リアルなAI音声対話モデル

Nari Labsによる16億パラメータのオープンソーステキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような音声を生成します。Dia 1.6B TTSをお試しください。

Dia 1.6B TTSとは？

Dia 1.6B TTSは、超リアルな対話合成のために設計された最先端のAIテキスト読み上げモデルです。Nari Labsによって開発され、Apache 2.0ライセンスの下でリリースされたDia 1.6B TTSは、商用ソリューションに匹敵する自然で表現力豊かな音声出力を提供します。

Dia 1.6B TTSを使用した自然なイントネーション、リズム、感情表現を持つ音声合成
Dia 1.6B TTSによる最適化されたマルチスピーカー対話生成
10GBのVRAMで動作する16億パラメータモデル
音声プロンプトによる音声クローニング機能

Dia 1.6B TTSのコア機能

Dia 1.6B TTS 卓越した音声品質

Dia 1.6B TTSは、人間のようなイントネーション、リズム、感情を持つ信じられないほど自然な音声を生成します。高度なAIモデルは、人間の声とほとんど区別がつかない音声を作成します。

Dia 1.6B TTS: マルチスピーカーサポート

[S1]や[S2]などの簡単なタグを使用してテキスト内の異なる声を指定し、Dia 1.6B TTSで一貫性のある自然な対話を簡単に作成できます。

Dia 1.6B TTSによる音声クローニング

音声プロンプト機能を使用して特定の音声特性をクローンし、Dia 1.6B TTSで複数の生成にわたって一貫した音声アイデンティティを実現し、パーソナライズされた音声出力を可能にします。

Dia 1.6B TTS: オープンソースモデル

Apache 2.0ライセンスの下でリリースされ、個人および商用目的での無料使用が可能です。Dia 1.6B TTSの完全なモデルウェイトとコードはGitHubで入手できます。

Dia 1.6B TTS 音声デモ

Dia 1.6B TTS: 標準使用 (サンプル1)

Dia 1.6B TTSの基本的な対話生成例。

Dia 1.6B TTS: 自然な会話 (サンプル2)

Dia 1.6B TTSを使用したカジュアルな対話を実演。

Dia 1.6B TTS: 感情的な対話 (サンプル3)

Dia 1.6B TTSを使用した表現力豊かで感情的な音声の例。

Dia 1.6B TTS: 非言語的な音 (サンプル4)

Dia 1.6B TTSによって生成された咳、鼻をすする、笑いを含みます。

Dia 1.6B TTS: ラップの例 (サンプル5)

Dia 1.6B TTSを使用したリズムと韻を披露。

Dia 1.6B TTS: 音声プロンプト機能 (サンプル6)

Dia 1.6B TTS音声プロンプトを使用した音声クローニングの例。

注：Dia 1.6B TTSで高品質出力のために音声プロンプトを使用するには、対応するスクリプトを入力テキストの前に追加してください。使いやすさのため、自動転写が検討されています。

Dia 1.6B TTS ビデオ例

Dia 1.6B TTS: ポッドキャスト品質

Dia 1.6B TTSを使用したポッドキャスト生成の可能性を実演。

Dia 1.6B TTS: モデル紹介

Dia 1.6B TTSの16億パラメータモデルをハイライト。

Dia 1.6B TTS: 超リアルな対話

Dia 1.6B TTSを使用したワンパス生成を披露。

Dia 1.6B TTSの仕組み：テキストからリアルな対話へ

1. Dia 1.6B TTS用のスクリプトを準備
Dia 1.6B TTSに変換してもらいたいテキストを書くか貼り付けます。[S1]や[S2]などの簡単なタグを文の前に使用して、異なる話者の声を割り当てます。(笑い)や(咳)などの非言語的な手がかりを含めて、リアリティを追加することもできます。
2. (オプション) Dia 1.6B TTSに音声プロンプトを提供
Dia 1.6B TTSで特定の声をクローンしたり感情的なトーンを導くには、短い音声サンプル(5-15秒)とその正確な転写(話者タグ付き)を、入力のメインスクリプトの前に追加してアップロードします。
3. Dia 1.6B TTSで音声を生成
Dia 1.6B TTSモデルを実行します(アプリを介してローカルで、またはオンラインデモを使用)。モデルはスクリプト全体を1回で処理し、シームレスな対話を生成します。
4. Dia 1.6B TTS出力を聴いてダウンロード
Dia 1.6B TTSから直接生成された音声を再生します。出力は自然なイントネーション、リズム、さらには非言語的な手がかりをキャプチャし、超リアルなリスニング体験を作成します。プロジェクト用に音声ファイルをダウンロードします。

Dia 1.6B TTS インストールガイド

### Windowsインストール

1. リポジトリをクローン
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Python仮想環境を作成 (Python 3.10推奨)
   python -m venv venv
   venv\Scripts\activate.bat

3. 依存関係をインストール
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. モデルウェイトをダウンロード
   # これらは自動的にダウンロードされるか、Hugging Faceから手動でダウンロードできます

5. アプリケーションを起動
   python app.py

Dia 1.6B TTS 技術情報

Dia 1.6B TTS - 超リアルな対話合成モデル

Dia 1.6B TTSは、自然なイントネーション、リズム、感情を持つ人間のような音声を生成する16億パラメータの最先端テキスト読み上げモデルです。エンタープライズグレードのGPUでは、Dia 1.6B TTSはリアルタイムで音声を生成でき、A4000 GPUは約40トークン/秒を生成します(86トークンが音声の1秒に相当)。

フルバージョンの実行には約10GBのVRAMが必要です。Dia 1.6B TTSの量子化バージョンは、ローエンドハードウェアでのアクセシビリティを向上させるために、将来のアップデートで計画されています。

Dia 1.6B TTS GitHubリポジトリ Dia 1.6B TTS オンラインデモ

Dia TTS 料金

Dia TTS音声生成クレジットを購入して、プロフェッショナルなAIテキスト読み上げサービスを体験してください。

Basic

よりお得な価格の年次Basicプラン。

$9.9$7.9/月

年間 12000 クレジット (1000/月)
年次請求 ($94.80/年)
高品質オーディオ出力
標準カスタマーサポート

年次割引！月次より20%オフ！

最も人気

Pro

プロフェッショナル向けの最良の選択、年次Proプラン。

$19.9$15.9/月

年間 26400 クレジット (2200/月)
年次請求 ($190.80/年)
高品質オーディオ出力
優先カスタマーサポート