Dia 1.6B TTS

超现实AI语音对话模型

由Nari Labs开发的开源1.6B参数文本转语音模型,能够生成具有自然语调、节奏和情感的人类般语音。认识Dia 1.6B TTS。

Dia TTS Hero Animation

什么是Dia 1.6B TTS?

Dia 1.6B TTS是一款尖端的AI文本转语音模型,专为超现实对话合成而设计。由Nari Labs开发并在Apache 2.0许可证下发布,Dia 1.6B TTS提供可媲美商业解决方案的自然和富有表现力的语音输出。

  • 使用Dia 1.6B TTS进行具有自然语调、节奏和情感表达的语音合成
  • 使用Dia 1.6B TTS优化多说话者对话生成
  • 在10GB显存上运行的1.6B参数模型
  • 通过音频提示进行语音克隆功能

Dia 1.6B TTS核心功能

Dia 1.6B TTS卓越语音质量

Dia 1.6B TTS产生极其自然的声音,具有人类般的语调、节奏和情感。先进的AI模型创造出几乎与人声无法区分的语音。

Dia 1.6B TTS:多说话者支持

使用简单的标签如[S1]和[S2]轻松创建多说话者对话,在文本中指定不同的声音,使用Dia 1.6B TTS保持一致的自然对话。

使用Dia 1.6B TTS进行语音克隆

使用音频提示功能克隆特定的语音特征,实现多次生成中一致的语音身份,使用Dia 1.6B TTS实现个性化语音输出。

Dia 1.6B TTS:开源模型

在Apache 2.0许可证下发布,允许个人和商业用途免费使用。Dia 1.6B TTS的完整模型权重和代码在GitHub上可用。

Dia 1.6B TTS音频演示

Dia 1.6B TTS:标准用法(示例1)

来自Dia 1.6B TTS的基础对话生成示例。

Dia 1.6B TTS:自然对话(示例2)

展示使用Dia 1.6B TTS的休闲互动。

Dia 1.6B TTS:情感对话(示例3)

使用Dia 1.6B TTS的表达性、高情感语音示例。

Dia 1.6B TTS:非语言声音(示例4)

包括由Dia 1.6B TTS生成的咳嗽、嗅鼻、笑声。

Dia 1.6B TTS:说唱示例(示例5)

展示使用Dia 1.6B TTS的节奏和韵律。

Dia 1.6B TTS:音频提示功能(示例6)

使用Dia 1.6B TTS音频提示进行语音克隆的示例。

注意:要在Dia 1.6B TTS中使用音频提示获得高质量输出,请将相应的脚本前置到输入文本中。正在考虑自动转录以便于使用。

Dia 1.6B TTS视频示例

Dia 1.6B TTS:播客质量

展示使用Dia 1.6B TTS生成播客的潜力。

Dia 1.6B TTS:模型介绍

突出Dia 1.6B TTS的1.6B参数模型。

Dia 1.6B TTS:超现实对话

展示使用Dia 1.6B TTS的单次生成。

Dia 1.6B TTS工作原理:从文本到逼真对话

  1. 1. 为Dia 1.6B TTS准备您的脚本

    编写或粘贴您希望Dia 1.6B TTS转换的文本。在句子前使用简单的标签如[S1]和[S2]来分配不同的说话者声音。您还可以包含非语言提示如(笑)或(咳嗽)以增加真实感。

  2. 2. (可选)为Dia 1.6B TTS提供音频提示

    要使用Dia 1.6B TTS克隆特定声音或引导情感语调,请上传短音频样本(5-15秒)并将其准确转录(带说话者标签)前置到输入中的主脚本。

  3. 3. 使用Dia 1.6B TTS生成音频

    运行Dia 1.6B TTS模型(通过应用程序本地运行或使用在线演示)。模型一次性处理整个脚本,生成无缝对话。

  4. 4. 收听并下载Dia 1.6B TTS输出

    直接从Dia 1.6B TTS播放生成的音频。输出捕获自然语调、节奏甚至非语言提示,创造超现实的聆听体验。为您的项目下载音频文件。

Dia 1.6B TTS安装指南

### Windows安装

1. 克隆仓库
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. 创建Python虚拟环境(推荐Python 3.10)
   python -m venv venv
   venv\Scripts\activate.bat

3. 安装依赖
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. 下载模型权重
   # 这些将自动下载或可以从Hugging Face手动下载

5. 启动应用程序
   python app.py

Dia 1.6B TTS技术信息

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - 超现实对话合成模型

Dia 1.6B TTS是一个最先进的文本转语音模型,具有1.6B参数,生成具有自然语调、节奏和情感的人类般声音。在企业级GPU上,Dia 1.6B TTS可以实时生成音频,A4000 GPU大约产生40令牌/秒(86令牌等于1秒音频)。

完整版本需要大约10GB的显存运行。计划在未来更新中推出Dia 1.6B TTS的量化版本,以提高在低端硬件上的可访问性。

Dia TTS 定价

购买 Dia TTS 积分,体验专业的AI视频生成服务。

Basic

一年期Basic套餐,享受更优惠的价格。

$9.9$7.9/月
  • 每年 12000 积分 (1000/月)
  • 按年计费 ($94.80/年)
  • 高质量音频输出
  • 标准客户支持

年付享优惠,比月付节省20%!

最受欢迎

Pro

一年期Pro套餐,专业用户的最佳选择。

$19.9$15.9/月
  • 每年 26400 积分 (2200/月)
  • 按年计费 ($190.80/年)
  • 高质量音频输出
  • 优先客户支持

年付享优惠,比月付节省20%!

Ultra

一年期Ultra套餐,团队和企业的首选。

$36.9$29.9/月
  • 每年 54000 积分 (4500/月)
  • 按年计费 ($358.80/年)
  • 高质量音频输出
  • VIP客户支持

年付享优惠,比月付节省19%!