什麼是Dia 1.6B TTS?
Dia 1.6B TTS是一款尖端的AI文本轉語音模型,专为超现实對話合成而设计。由Nari Labs开发并在Apache 2.0許可證下發布,Dia 1.6B TTS提供可媲美商業解決方案的自然和富有表现力的语音輸出。
- 使用Dia 1.6B TTS进行具有自然語調、節奏和情感表达的語音合成
- 使用Dia 1.6B TTS优化多说话者對話生成
- 在10GB顯存上運行的1.6B參數模型
- 通過音頻提示進行語音克隆功能
Dia 1.6B TTS核心功能
Dia 1.6B TTS卓越語音質量
Dia 1.6B TTS產生極其自然的聲音,具有人类般的语调、節奏和情感。先進的AI模型創造出幾乎與人聲無法區分的語音。
Dia 1.6B TTS:多說話者支持
使用简单的标签如[S1]和[S2]輕鬆創建多說話者對話,在文本中指定不同的聲音,使用Dia 1.6B TTS保持一致的自然對話。
使用Dia 1.6B TTS进行语音克隆
使用音頻提示功能克隆特定的語音特征,實現多次生成中一致的语音身份,使用Dia 1.6B TTS實現个性化语音輸出。
Dia 1.6B TTS:开源模型
在Apache 2.0許可證下發布,允許個人和商業用途免費使用。Dia 1.6B TTS的完整模型權重和代碼在GitHub上可用。
Dia 1.6B TTS音頻演示
Dia 1.6B TTS:標準用法(示例1)
来自Dia 1.6B TTS的基础對話生成示例。
Dia 1.6B TTS:自然對話(示例2)
展示使用Dia 1.6B TTS的休閒互動。
Dia 1.6B TTS:情感對話(示例3)
使用Dia 1.6B TTS的表達性、高情感語音示例。
Dia 1.6B TTS:非語言聲音(示例4)
包括由Dia 1.6B TTS生成的咳嗽、嗅鼻、笑聲。
Dia 1.6B TTS:說唱示例(示例5)
展示使用Dia 1.6B TTS的節奏和韻律。
Dia 1.6B TTS:音頻提示功能(示例6)
使用Dia 1.6B TTS音频提示进行语音克隆的示例。
注意:要在Dia 1.6B TTS中使用音频提示获得高质量輸出,請將相應的腳本前置到輸入文本中。正在考慮自動轉錄以便於使用。
Dia 1.6B TTS視頻示例
Dia 1.6B TTS:播客質量
展示使用Dia 1.6B TTS生成播客的潛力。
Dia 1.6B TTS:模型介紹
突出Dia 1.6B TTS的1.6B參數模型。
Dia 1.6B TTS:超現實對話
展示使用Dia 1.6B TTS的單次生成。
Dia 1.6B TTS工作原理:從文本到逼真對話
1. 為Dia 1.6B TTS準備您的腳本
編寫或粘貼您希望Dia 1.6B TTS轉換的文本。在句子前使用簡單的標籤如[S1]和[S2]來分配不同的說話者聲音。您還可以包含非語言提示如(笑)或(咳嗽)以增加真實感。
2. (可選)为Dia 1.6B TTS提供音頻提示
要使用Dia 1.6B TTS克隆特定聲音或引導情感語調,請上傳短音頻樣本(5-15秒)並將其準確轉錄(帶說話者標籤)前置到輸入中的主腳本。
3. 使用Dia 1.6B TTS生成音频
運行Dia 1.6B TTS模型(通过应用程序本地运行或使用在線演示)。模型一次性處理整個腳本,生成無縫對話。
4. 收听并下載Dia 1.6B TTS輸出
直接從Dia 1.6B TTS播放生成的音頻。輸出捕獲自然語調、节奏甚至非語言提示,创造超现实的聆听體驗。为您的项目下載音频文件。
Dia 1.6B TTS安裝指南
### Windows安装
1. 克隆倉庫
git clone https://github.com/nari-labs/dia.git
cd dia
2. 創建Python虛擬環境(推薦Python 3.10)
python -m venv venv
venv\Scripts\activate.bat
3. 安裝依賴
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. 下載模型权重
# 这些将自动下載或可以从Hugging Face手动下載
5. 啟動應用程序
python app.pyDia 1.6B TTS技術信息

Dia 1.6B TTS - 超现实對話合成模型
Dia 1.6B TTS是一个最先进的文本轉語音模型,具有1.6B參數,生成具有自然語調、節奏和情感的人類般聲音。在企業級GPU上,Dia 1.6B TTS可以實時生成音频,A4000 GPU大約產生40令牌/秒(86令牌等於1秒音頻)。
完整版本需要大約10GB的顯存運行。計劃在未來更新中推出Dia 1.6B TTS的量化版本,以提高在低端硬件上的可訪問性。
Dia TTS 定价
购买 Dia TTS 积分,体验专业的AI视频生成服务。
Basic
一年期Basic套餐,享受更优惠的价格。
- 每年 12000 积分 (1000/月)
- 按年计费 ($94.80/年)
- 高质量音频输出
- 标准客户支持
年付享优惠,比月付节省20%!
Pro
一年期Pro套餐,专业用户的最佳选择。
- 每年 26400 积分 (2200/月)
- 按年计费 ($190.80/年)
- 高质量音频输出
- 优先客户支持
年付享优惠,比月付节省20%!
Ultra
一年期Ultra套餐,团队和企业的首选。
- 每年 54000 积分 (4500/月)
- 按年计费 ($358.80/年)
- 高质量音频输出
- VIP客户支持
年付享优惠,比月付节省19%!
