什么是Dia 1.6B TTS?
Dia 1.6B TTS是一款尖端的AI文本转语音模型,专为超现实对话合成而设计。由Nari Labs开发并在Apache 2.0许可证下发布,Dia 1.6B TTS提供可媲美商业解决方案的自然和富有表现力的语音输出。
- 使用Dia 1.6B TTS进行具有自然语调、节奏和情感表达的语音合成
- 使用Dia 1.6B TTS优化多说话者对话生成
- 在10GB显存上运行的1.6B参数模型
- 通过音频提示进行语音克隆功能
Dia 1.6B TTS核心功能
Dia 1.6B TTS卓越语音质量
Dia 1.6B TTS产生极其自然的声音,具有人类般的语调、节奏和情感。先进的AI模型创造出几乎与人声无法区分的语音。
Dia 1.6B TTS:多说话者支持
使用简单的标签如[S1]和[S2]轻松创建多说话者对话,在文本中指定不同的声音,使用Dia 1.6B TTS保持一致的自然对话。
使用Dia 1.6B TTS进行语音克隆
使用音频提示功能克隆特定的语音特征,实现多次生成中一致的语音身份,使用Dia 1.6B TTS实现个性化语音输出。
Dia 1.6B TTS:开源模型
在Apache 2.0许可证下发布,允许个人和商业用途免费使用。Dia 1.6B TTS的完整模型权重和代码在GitHub上可用。
Dia 1.6B TTS音频演示
Dia 1.6B TTS:标准用法(示例1)
来自Dia 1.6B TTS的基础对话生成示例。
Dia 1.6B TTS:自然对话(示例2)
展示使用Dia 1.6B TTS的休闲互动。
Dia 1.6B TTS:情感对话(示例3)
使用Dia 1.6B TTS的表达性、高情感语音示例。
Dia 1.6B TTS:非语言声音(示例4)
包括由Dia 1.6B TTS生成的咳嗽、嗅鼻、笑声。
Dia 1.6B TTS:说唱示例(示例5)
展示使用Dia 1.6B TTS的节奏和韵律。
Dia 1.6B TTS:音频提示功能(示例6)
使用Dia 1.6B TTS音频提示进行语音克隆的示例。
注意:要在Dia 1.6B TTS中使用音频提示获得高质量输出,请将相应的脚本前置到输入文本中。正在考虑自动转录以便于使用。
Dia 1.6B TTS视频示例
Dia 1.6B TTS:播客质量
展示使用Dia 1.6B TTS生成播客的潜力。
Dia 1.6B TTS:模型介绍
突出Dia 1.6B TTS的1.6B参数模型。
Dia 1.6B TTS:超现实对话
展示使用Dia 1.6B TTS的单次生成。
Dia 1.6B TTS工作原理:从文本到逼真对话
1. 为Dia 1.6B TTS准备您的脚本
编写或粘贴您希望Dia 1.6B TTS转换的文本。在句子前使用简单的标签如[S1]和[S2]来分配不同的说话者声音。您还可以包含非语言提示如(笑)或(咳嗽)以增加真实感。
2. (可选)为Dia 1.6B TTS提供音频提示
要使用Dia 1.6B TTS克隆特定声音或引导情感语调,请上传短音频样本(5-15秒)并将其准确转录(带说话者标签)前置到输入中的主脚本。
3. 使用Dia 1.6B TTS生成音频
运行Dia 1.6B TTS模型(通过应用程序本地运行或使用在线演示)。模型一次性处理整个脚本,生成无缝对话。
4. 收听并下载Dia 1.6B TTS输出
直接从Dia 1.6B TTS播放生成的音频。输出捕获自然语调、节奏甚至非语言提示,创造超现实的聆听体验。为您的项目下载音频文件。
Dia 1.6B TTS安装指南
### Windows安装
1. 克隆仓库
git clone https://github.com/nari-labs/dia.git
cd dia
2. 创建Python虚拟环境(推荐Python 3.10)
python -m venv venv
venv\Scripts\activate.bat
3. 安装依赖
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. 下载模型权重
# 这些将自动下载或可以从Hugging Face手动下载
5. 启动应用程序
python app.pyDia 1.6B TTS技术信息

Dia 1.6B TTS - 超现实对话合成模型
Dia 1.6B TTS是一个最先进的文本转语音模型,具有1.6B参数,生成具有自然语调、节奏和情感的人类般声音。在企业级GPU上,Dia 1.6B TTS可以实时生成音频,A4000 GPU大约产生40令牌/秒(86令牌等于1秒音频)。
完整版本需要大约10GB的显存运行。计划在未来更新中推出Dia 1.6B TTS的量化版本,以提高在低端硬件上的可访问性。
Dia TTS 定价
购买 Dia TTS 积分,体验专业的AI视频生成服务。
Basic
一年期Basic套餐,享受更优惠的价格。
- 每年 12000 积分 (1000/月)
- 按年计费 ($94.80/年)
- 高质量音频输出
- 标准客户支持
年付享优惠,比月付节省20%!
Pro
一年期Pro套餐,专业用户的最佳选择。
- 每年 26400 积分 (2200/月)
- 按年计费 ($190.80/年)
- 高质量音频输出
- 优先客户支持
年付享优惠,比月付节省20%!
Ultra
一年期Ultra套餐,团队和企业的首选。
- 每年 54000 积分 (4500/月)
- 按年计费 ($358.80/年)
- 高质量音频输出
- VIP客户支持
年付享优惠,比月付节省19%!
