Dia 1.6B TTS

超現實AI語音對話模型

由Nari Labs开发的开源1.6B參數文本轉語音模型,能夠生成具有自然語調、節奏和情感的人類般語音。認識Dia 1.6B TTS。

Dia TTS Hero Animation

什麼是Dia 1.6B TTS?

Dia 1.6B TTS是一款尖端的AI文本轉語音模型,专为超现实對話合成而设计。由Nari Labs开发并在Apache 2.0許可證下發布,Dia 1.6B TTS提供可媲美商業解決方案的自然和富有表现力的语音輸出。

  • 使用Dia 1.6B TTS进行具有自然語調、節奏和情感表达的語音合成
  • 使用Dia 1.6B TTS优化多说话者對話生成
  • 在10GB顯存上運行的1.6B參數模型
  • 通過音頻提示進行語音克隆功能

Dia 1.6B TTS核心功能

Dia 1.6B TTS卓越語音質量

Dia 1.6B TTS產生極其自然的聲音,具有人类般的语调、節奏和情感。先進的AI模型創造出幾乎與人聲無法區分的語音。

Dia 1.6B TTS:多說話者支持

使用简单的标签如[S1]和[S2]輕鬆創建多說話者對話,在文本中指定不同的聲音,使用Dia 1.6B TTS保持一致的自然對話。

使用Dia 1.6B TTS进行语音克隆

使用音頻提示功能克隆特定的語音特征,實現多次生成中一致的语音身份,使用Dia 1.6B TTS實現个性化语音輸出。

Dia 1.6B TTS:开源模型

在Apache 2.0許可證下發布,允許個人和商業用途免費使用。Dia 1.6B TTS的完整模型權重和代碼在GitHub上可用。

Dia 1.6B TTS音頻演示

Dia 1.6B TTS:標準用法(示例1)

来自Dia 1.6B TTS的基础對話生成示例。

Dia 1.6B TTS:自然對話(示例2)

展示使用Dia 1.6B TTS的休閒互動。

Dia 1.6B TTS:情感對話(示例3)

使用Dia 1.6B TTS的表達性、高情感語音示例。

Dia 1.6B TTS:非語言聲音(示例4)

包括由Dia 1.6B TTS生成的咳嗽、嗅鼻、笑聲。

Dia 1.6B TTS:說唱示例(示例5)

展示使用Dia 1.6B TTS的節奏和韻律。

Dia 1.6B TTS:音頻提示功能(示例6)

使用Dia 1.6B TTS音频提示进行语音克隆的示例。

注意:要在Dia 1.6B TTS中使用音频提示获得高质量輸出,請將相應的腳本前置到輸入文本中。正在考慮自動轉錄以便於使用。

Dia 1.6B TTS視頻示例

Dia 1.6B TTS:播客質量

展示使用Dia 1.6B TTS生成播客的潛力。

Dia 1.6B TTS:模型介紹

突出Dia 1.6B TTS的1.6B參數模型。

Dia 1.6B TTS:超現實對話

展示使用Dia 1.6B TTS的單次生成。

Dia 1.6B TTS工作原理:從文本到逼真對話

  1. 1. 為Dia 1.6B TTS準備您的腳本

    編寫或粘貼您希望Dia 1.6B TTS轉換的文本。在句子前使用簡單的標籤如[S1]和[S2]來分配不同的說話者聲音。您還可以包含非語言提示如(笑)或(咳嗽)以增加真實感。

  2. 2. (可選)为Dia 1.6B TTS提供音頻提示

    要使用Dia 1.6B TTS克隆特定聲音或引導情感語調,請上傳短音頻樣本(5-15秒)並將其準確轉錄(帶說話者標籤)前置到輸入中的主腳本。

  3. 3. 使用Dia 1.6B TTS生成音频

    運行Dia 1.6B TTS模型(通过应用程序本地运行或使用在線演示)。模型一次性處理整個腳本,生成無縫對話。

  4. 4. 收听并下載Dia 1.6B TTS輸出

    直接從Dia 1.6B TTS播放生成的音頻。輸出捕獲自然語調、节奏甚至非語言提示,创造超现实的聆听體驗。为您的项目下載音频文件。

Dia 1.6B TTS安裝指南

### Windows安装

1. 克隆倉庫
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. 創建Python虛擬環境(推薦Python 3.10)
   python -m venv venv
   venv\Scripts\activate.bat

3. 安裝依賴
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. 下載模型权重
   # 这些将自动下載或可以从Hugging Face手动下載

5. 啟動應用程序
   python app.py

Dia 1.6B TTS技術信息

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - 超现实對話合成模型

Dia 1.6B TTS是一个最先进的文本轉語音模型,具有1.6B參數,生成具有自然語調、節奏和情感的人類般聲音。在企業級GPU上,Dia 1.6B TTS可以實時生成音频,A4000 GPU大約產生40令牌/秒(86令牌等於1秒音頻)。

完整版本需要大約10GB的顯存運行。計劃在未來更新中推出Dia 1.6B TTS的量化版本,以提高在低端硬件上的可訪問性。

Dia TTS 定价

购买 Dia TTS 积分,体验专业的AI视频生成服务。

Basic

一年期Basic套餐,享受更优惠的价格。

$9.9$7.9/月
  • 每年 12000 积分 (1000/月)
  • 按年计费 ($94.80/年)
  • 高质量音频输出
  • 标准客户支持

年付享优惠,比月付节省20%!

最受欢迎

Pro

一年期Pro套餐,专业用户的最佳选择。

$19.9$15.9/月
  • 每年 26400 积分 (2200/月)
  • 按年计费 ($190.80/年)
  • 高质量音频输出
  • 优先客户支持

年付享优惠,比月付节省20%!

Ultra

一年期Ultra套餐,团队和企业的首选。

$36.9$29.9/月
  • 每年 54000 积分 (4500/月)
  • 按年计费 ($358.80/年)
  • 高质量音频输出
  • VIP客户支持

年付享优惠,比月付节省19%!