Dia 1.6B TTS

超現實AI語音對話模型

由Nari Labs开发的开源1.6B參數文本轉語音模型，能夠生成具有自然語調、節奏和情感的人類般語音。認識Dia 1.6B TTS。

開始使用收聽演示

什麼是Dia 1.6B TTS？

Dia 1.6B TTS是一款尖端的AI文本轉語音模型，专为超现实對話合成而设计。由Nari Labs开发并在Apache 2.0許可證下發布，Dia 1.6B TTS提供可媲美商業解決方案的自然和富有表现力的语音輸出。

使用Dia 1.6B TTS进行具有自然語調、節奏和情感表达的語音合成
使用Dia 1.6B TTS优化多说话者對話生成
在10GB顯存上運行的1.6B參數模型
通過音頻提示進行語音克隆功能

Dia 1.6B TTS核心功能

Dia 1.6B TTS卓越語音質量

Dia 1.6B TTS產生極其自然的聲音，具有人类般的语调、節奏和情感。先進的AI模型創造出幾乎與人聲無法區分的語音。

Dia 1.6B TTS：多說話者支持

使用简单的标签如[S1]和[S2]輕鬆創建多說話者對話，在文本中指定不同的聲音，使用Dia 1.6B TTS保持一致的自然對話。

使用Dia 1.6B TTS进行语音克隆

使用音頻提示功能克隆特定的語音特征，實現多次生成中一致的语音身份，使用Dia 1.6B TTS實現个性化语音輸出。

Dia 1.6B TTS：开源模型

在Apache 2.0許可證下發布，允許個人和商業用途免費使用。Dia 1.6B TTS的完整模型權重和代碼在GitHub上可用。

Dia 1.6B TTS音頻演示

Dia 1.6B TTS：標準用法（示例1）

来自Dia 1.6B TTS的基础對話生成示例。

Dia 1.6B TTS：自然對話（示例2）

展示使用Dia 1.6B TTS的休閒互動。

Dia 1.6B TTS：情感對話（示例3）

使用Dia 1.6B TTS的表達性、高情感語音示例。

Dia 1.6B TTS：非語言聲音（示例4）

包括由Dia 1.6B TTS生成的咳嗽、嗅鼻、笑聲。

Dia 1.6B TTS：說唱示例（示例5）

展示使用Dia 1.6B TTS的節奏和韻律。

Dia 1.6B TTS：音頻提示功能（示例6）

使用Dia 1.6B TTS音频提示进行语音克隆的示例。

注意：要在Dia 1.6B TTS中使用音频提示获得高质量輸出，請將相應的腳本前置到輸入文本中。正在考慮自動轉錄以便於使用。

Dia 1.6B TTS視頻示例

Dia 1.6B TTS：播客質量

展示使用Dia 1.6B TTS生成播客的潛力。

Dia 1.6B TTS：模型介紹

突出Dia 1.6B TTS的1.6B參數模型。

Dia 1.6B TTS：超現實對話

展示使用Dia 1.6B TTS的單次生成。

Dia 1.6B TTS工作原理：從文本到逼真對話

1. 為Dia 1.6B TTS準備您的腳本
編寫或粘貼您希望Dia 1.6B TTS轉換的文本。在句子前使用簡單的標籤如[S1]和[S2]來分配不同的說話者聲音。您還可以包含非語言提示如（笑）或（咳嗽）以增加真實感。
2. （可選）为Dia 1.6B TTS提供音頻提示
要使用Dia 1.6B TTS克隆特定聲音或引導情感語調，請上傳短音頻樣本（5-15秒）並將其準確轉錄（帶說話者標籤）前置到輸入中的主腳本。
3. 使用Dia 1.6B TTS生成音频
運行Dia 1.6B TTS模型（通过应用程序本地运行或使用在線演示）。模型一次性處理整個腳本，生成無縫對話。
4. 收听并下載Dia 1.6B TTS輸出
直接從Dia 1.6B TTS播放生成的音頻。輸出捕獲自然語調、节奏甚至非語言提示，创造超现实的聆听體驗。为您的项目下載音频文件。

Dia 1.6B TTS安裝指南

### Windows安装

1. 克隆倉庫
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. 創建Python虛擬環境（推薦Python 3.10）
   python -m venv venv
   venv\Scripts\activate.bat

3. 安裝依賴
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. 下載模型权重
   # 这些将自动下載或可以从Hugging Face手动下載

5. 啟動應用程序
   python app.py

Dia 1.6B TTS技術信息

Dia 1.6B TTS - 超现实對話合成模型

Dia 1.6B TTS是一个最先进的文本轉語音模型，具有1.6B參數，生成具有自然語調、節奏和情感的人類般聲音。在企業級GPU上，Dia 1.6B TTS可以實時生成音频，A4000 GPU大約產生40令牌/秒（86令牌等於1秒音頻）。

完整版本需要大約10GB的顯存運行。計劃在未來更新中推出Dia 1.6B TTS的量化版本，以提高在低端硬件上的可訪問性。

Dia 1.6B TTS GitHub倉庫 Dia 1.6B TTS在線演示

Dia TTS 定价

购买 Dia TTS 积分，体验专业的AI视频生成服务。

Basic

一年期Basic套餐，享受更优惠的价格。

$9.9$7.9/月

每年 12000 积分 (1000/月)
按年计费 ($94.80/年)
高质量音频输出
标准客户支持

年付享优惠，比月付节省20%！

最受欢迎

Pro

一年期Pro套餐，专业用户的最佳选择。

$19.9$15.9/月

每年 26400 积分 (2200/月)
按年计费 ($190.80/年)
高质量音频输出
优先客户支持