Dia 1.6B TTS

超リアルなAI音声対話モデル

Nari Labsによる16億パラメータのオープンソーステキスト読み上げモデルで、自然なイントネーション、リズム、感情を持つ人間のような音声を生成します。Dia 1.6B TTSをお試しください。

Dia TTS Hero Animation

Dia 1.6B TTSとは?

Dia 1.6B TTSは、超リアルな対話合成のために設計された最先端のAIテキスト読み上げモデルです。Nari Labsによって開発され、Apache 2.0ライセンスの下でリリースされたDia 1.6B TTSは、商用ソリューションに匹敵する自然で表現力豊かな音声出力を提供します。

  • Dia 1.6B TTSを使用した自然なイントネーション、リズム、感情表現を持つ音声合成
  • Dia 1.6B TTSによる最適化されたマルチスピーカー対話生成
  • 10GBのVRAMで動作する16億パラメータモデル
  • 音声プロンプトによる音声クローニング機能

Dia 1.6B TTSのコア機能

Dia 1.6B TTS 卓越した音声品質

Dia 1.6B TTSは、人間のようなイントネーション、リズム、感情を持つ信じられないほど自然な音声を生成します。高度なAIモデルは、人間の声とほとんど区別がつかない音声を作成します。

Dia 1.6B TTS: マルチスピーカーサポート

[S1]や[S2]などの簡単なタグを使用してテキスト内の異なる声を指定し、Dia 1.6B TTSで一貫性のある自然な対話を簡単に作成できます。

Dia 1.6B TTSによる音声クローニング

音声プロンプト機能を使用して特定の音声特性をクローンし、Dia 1.6B TTSで複数の生成にわたって一貫した音声アイデンティティを実現し、パーソナライズされた音声出力を可能にします。

Dia 1.6B TTS: オープンソースモデル

Apache 2.0ライセンスの下でリリースされ、個人および商用目的での無料使用が可能です。Dia 1.6B TTSの完全なモデルウェイトとコードはGitHubで入手できます。

Dia 1.6B TTS 音声デモ

Dia 1.6B TTS: 標準使用 (サンプル1)

Dia 1.6B TTSの基本的な対話生成例。

Dia 1.6B TTS: 自然な会話 (サンプル2)

Dia 1.6B TTSを使用したカジュアルな対話を実演。

Dia 1.6B TTS: 感情的な対話 (サンプル3)

Dia 1.6B TTSを使用した表現力豊かで感情的な音声の例。

Dia 1.6B TTS: 非言語的な音 (サンプル4)

Dia 1.6B TTSによって生成された咳、鼻をすする、笑いを含みます。

Dia 1.6B TTS: ラップの例 (サンプル5)

Dia 1.6B TTSを使用したリズムと韻を披露。

Dia 1.6B TTS: 音声プロンプト機能 (サンプル6)

Dia 1.6B TTS音声プロンプトを使用した音声クローニングの例。

注:Dia 1.6B TTSで高品質出力のために音声プロンプトを使用するには、対応するスクリプトを入力テキストの前に追加してください。使いやすさのため、自動転写が検討されています。

Dia 1.6B TTS ビデオ例

Dia 1.6B TTS: ポッドキャスト品質

Dia 1.6B TTSを使用したポッドキャスト生成の可能性を実演。

Dia 1.6B TTS: モデル紹介

Dia 1.6B TTSの16億パラメータモデルをハイライト。

Dia 1.6B TTS: 超リアルな対話

Dia 1.6B TTSを使用したワンパス生成を披露。

Dia 1.6B TTSの仕組み:テキストからリアルな対話へ

  1. 1. Dia 1.6B TTS用のスクリプトを準備

    Dia 1.6B TTSに変換してもらいたいテキストを書くか貼り付けます。[S1]や[S2]などの簡単なタグを文の前に使用して、異なる話者の声を割り当てます。(笑い)や(咳)などの非言語的な手がかりを含めて、リアリティを追加することもできます。

  2. 2. (オプション) Dia 1.6B TTSに音声プロンプトを提供

    Dia 1.6B TTSで特定の声をクローンしたり感情的なトーンを導くには、短い音声サンプル(5-15秒)とその正確な転写(話者タグ付き)を、入力のメインスクリプトの前に追加してアップロードします。

  3. 3. Dia 1.6B TTSで音声を生成

    Dia 1.6B TTSモデルを実行します(アプリを介してローカルで、またはオンラインデモを使用)。モデルはスクリプト全体を1回で処理し、シームレスな対話を生成します。

  4. 4. Dia 1.6B TTS出力を聴いてダウンロード

    Dia 1.6B TTSから直接生成された音声を再生します。出力は自然なイントネーション、リズム、さらには非言語的な手がかりをキャプチャし、超リアルなリスニング体験を作成します。プロジェクト用に音声ファイルをダウンロードします。

Dia 1.6B TTS インストールガイド

### Windowsインストール

1. リポジトリをクローン
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Python仮想環境を作成 (Python 3.10推奨)
   python -m venv venv
   venv\Scripts\activate.bat

3. 依存関係をインストール
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. モデルウェイトをダウンロード
   # これらは自動的にダウンロードされるか、Hugging Faceから手動でダウンロードできます

5. アプリケーションを起動
   python app.py

Dia 1.6B TTS 技術情報

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - 超リアルな対話合成モデル

Dia 1.6B TTSは、自然なイントネーション、リズム、感情を持つ人間のような音声を生成する16億パラメータの最先端テキスト読み上げモデルです。エンタープライズグレードのGPUでは、Dia 1.6B TTSはリアルタイムで音声を生成でき、A4000 GPUは約40トークン/秒を生成します(86トークンが音声の1秒に相当)。

フルバージョンの実行には約10GBのVRAMが必要です。Dia 1.6B TTSの量子化バージョンは、ローエンドハードウェアでのアクセシビリティを向上させるために、将来のアップデートで計画されています。

Dia TTS 料金

Dia TTS音声生成クレジットを購入して、プロフェッショナルなAIテキスト読み上げサービスを体験してください。

Basic

よりお得な価格の年次Basicプラン。

$9.9$7.9/月
  • 年間 12000 クレジット (1000/月)
  • 年次請求 ($94.80/年)
  • 高品質オーディオ出力
  • 標準カスタマーサポート

年次割引!月次より20%オフ!

最も人気

Pro

プロフェッショナル向けの最良の選択、年次Proプラン。

$19.9$15.9/月
  • 年間 26400 クレジット (2200/月)
  • 年次請求 ($190.80/年)
  • 高品質オーディオ出力
  • 優先カスタマーサポート

年次割引!月次より20%オフ!

Ultra

チームや企業に最適な年次Ultraプラン。

$36.9$29.9/月
  • 年間 54000 クレジット (4500/月)
  • 年次請求 ($358.80/年)
  • 高品質オーディオ出力
  • VIPカスタマーサポート

年次割引!月次より19%オフ!