Dia 1.6B TTS

โมเดลบทสนทนาเสียงพูด AI ที่สมจริงสุดยอด

โมเดล text-to-speech โอเพนซอร์ส 1.6B พารามิเตอร์จาก Nari Labs ที่สร้างเสียงพูดเหมือนมนุษย์ด้วยน้ำเสียง จังหวะ และอารมณ์ที่เป็นธรรมชาติ รู้จักกับ Dia 1.6B TTS

Dia TTS Hero Animation

Dia 1.6B TTS คืออะไร?

Dia 1.6B TTS เป็นโมเดล AI text-to-speech ที่ทันสมัยที่สุดที่ออกแบบมาสำหรับการสังเคราะห์บทสนทนาที่สมจริงสุดยอด พัฒนาโดย Nari Labs และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0 Dia 1.6B TTS นำเสนอผลลัพธ์เสียงพูดที่เป็นธรรมชาติและแสดงออกที่สามารถแข่งขันกับโซลูชันเชิงพาณิชย์

  • การสังเคราะห์เสียงพูดด้วยน้ำเสียงที่เป็นธรรมชาติ จังหวะ และการแสดงออกทางอารมณ์โดยใช้ Dia 1.6B TTS
  • การสร้างบทสนทนาหลายผู้พูดที่ปรับให้เหมาะสมด้วย Dia 1.6B TTS
  • โมเดล 1.6B พารามิเตอร์ที่ทำงานบน 10GB VRAM
  • ความสามารถในการโคลนเสียงผ่าน audio prompting

ฟีเจอร์หลักของ Dia 1.6B TTS

Dia 1.6B TTS คุณภาพเสียงพูดยอดเยี่ยม

Dia 1.6B TTS สร้างเสียงที่ฟังดูเป็นธรรมชาติอย่างเหลือเชื่อด้วยน้ำเสียง จังหวะ และอารมณ์เหมือนมนุษย์ โมเดล AI ขั้นสูงสร้างเสียงพูดที่แทบแยกไม่ออกจากเสียงมนุษย์

Dia 1.6B TTS: รองรับหลายผู้พูด

สร้างการสนทนาหลายผู้พูดได้อย่างง่ายดายโดยใช้แท็กง่ายๆ เช่น [S1] และ [S2] เพื่อระบุเสียงที่แตกต่างกันในข้อความของคุณ รักษาบทสนทนาที่สม่ำเสมอและเป็นธรรมชาติด้วย Dia 1.6B TTS

การโคลนเสียงด้วย Dia 1.6B TTS

โคลนลักษณะเสียงที่เฉพาะเจาะจงโดยใช้ฟีเจอร์ audio prompting ทำให้เอกลักษณ์เสียงสอดคล้องกันในหลายการสร้างสำหรับผลลัพธ์เสียงพูดที่ปรับแต่งเฉพาะบุคคลด้วย Dia 1.6B TTS

Dia 1.6B TTS: โมเดลโอเพนซอร์ส

เผยแพร่ภายใต้ใบอนุญาต Apache 2.0 อนุญาตให้ใช้ฟรีสำหรับวัตถุประสงค์ส่วนบุคคลและเชิงพาณิชย์ น้ำหนักโมเดลและโค้ดที่สมบูรณ์สำหรับ Dia 1.6B TTS พร้อมใช้งานบน GitHub

สาธิตเสียง Dia 1.6B TTS

Dia 1.6B TTS: การใช้งานมาตรฐาน (ตัวอย่าง 1)

ตัวอย่างการสร้างบทสนทนาพื้นฐานจาก Dia 1.6B TTS

Dia 1.6B TTS: การสนทนาธรรมชาติ (ตัวอย่าง 2)

แสดงการโต้ตอบแบบสบายๆ โดยใช้ Dia 1.6B TTS

Dia 1.6B TTS: บทสนทนาแสดงอารมณ์ (ตัวอย่าง 3)

ตัวอย่างเสียงพูดแสดงออกและอารมณ์สูงโดยใช้ Dia 1.6B TTS

Dia 1.6B TTS: เสียงที่ไม่ใช่คำพูด (ตัวอย่าง 4)

รวมถึงเสียงไอ เสียงสูดจมูก เสียงหัวเราะที่สร้างโดย Dia 1.6B TTS

Dia 1.6B TTS: ตัวอย่างแร็พ (ตัวอย่าง 5)

แสดงจังหวะและสัมผัสโดยใช้ Dia 1.6B TTS

Dia 1.6B TTS: ฟีเจอร์ Audio Prompting (ตัวอย่าง 6)

ตัวอย่างการโคลนเสียงโดยใช้ audio prompts ของ Dia 1.6B TTS

หมายเหตุ: เพื่อใช้ audio prompts สำหรับผลลัพธ์คุณภาพสูงใน Dia 1.6B TTS ให้เพิ่มสคริปต์ที่สอดคล้องก่อนข้อความอินพุตของคุณ กำลังพิจารณาการถอดเสียงอัตโนมัติเพื่อความสะดวกในการใช้งาน

ตัวอย่างวิดีโอ Dia 1.6B TTS

Dia 1.6B TTS: คุณภาพพอดแคสต์

แสดงศักยภาพในการสร้างพอดแคสต์โดยใช้ Dia 1.6B TTS

Dia 1.6B TTS: แนะนำโมเดล

เน้นโมเดล 1.6B พารามิเตอร์ของ Dia 1.6B TTS

Dia 1.6B TTS: บทสนทนาสมจริงสุดยอด

แสดงการสร้างแบบครั้งเดียวโดยใช้ Dia 1.6B TTS

วิธีการทำงานของ Dia 1.6B TTS: จากข้อความสู่บทสนทนาที่มีชีวิตชีวา

  1. 1. เตรียมสคริปต์ของคุณสำหรับ Dia 1.6B TTS

    เขียนหรือวางข้อความที่คุณต้องการให้ Dia 1.6B TTS แปลง ใช้แท็กง่ายๆ เช่น [S1] และ [S2] ก่อนประโยคเพื่อกำหนดเสียงผู้พูดที่แตกต่างกัน คุณยังสามารถรวมสัญญาณที่ไม่ใช่คำพูดเช่น (หัวเราะ) หรือ (ไอ) เพื่อเพิ่มความสมจริง

  2. 2. (ตัวเลือก) ให้ Audio Prompts แก่ Dia 1.6B TTS

    เพื่อโคลนเสียงที่เฉพาะเจาะจงหรือกำหนดโทนอารมณ์ด้วย Dia 1.6B TTS อัปโหลดตัวอย่างเสียงสั้นๆ (5-15 วินาที) และการถอดเสียงที่ถูกต้อง (พร้อมแท็กผู้พูด) ที่เพิ่มไว้ก่อนสคริปต์หลักในอินพุตของคุณ

  3. 3. สร้างเสียงด้วย Dia 1.6B TTS

    รันโมเดล Dia 1.6B TTS (ภายในเครื่องผ่านแอปหรือใช้สาธิตออนไลน์) โมเดลประมวลผลสคริปต์ทั้งหมดในรอบเดียว สร้างบทสนทนาที่ราบรื่น

  4. 4. ฟังและดาวน์โหลดผลลัพธ์ Dia 1.6B TTS

    เล่นเสียงที่สร้างขึ้นโดยตรงจาก Dia 1.6B TTS ผลลัพธ์จับน้ำเสียงที่เป็นธรรมชาติ จังหวะ และแม้กระทั่งสัญญาณที่ไม่ใช่คำพูด สร้างประสบการณ์การฟังที่สมจริงสุดยอด ดาวน์โหลดไฟล์เสียงสำหรับโปรเจ็กต์ของคุณ

คู่มือการติดตั้ง Dia 1.6B TTS

### Windows Installation

1. Clone the repository
   git clone https://github.com/nari-labs/dia.git
   cd dia

2. Create a Python virtual environment (Python 3.10 recommended)
   python -m venv venv
   venv\Scripts\activate.bat

3. Install dependencies
   python -m pip install --upgrade pip
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
   pip install -r requirements.txt

4. Download model weights
   # These will download automatically or can be manually downloaded from Hugging Face

5. Launch the application
   python app.py

ข้อมูลทางเทคนิค Dia 1.6B TTS

Dia 1.6B TTS Architecture Diagram

Dia 1.6B TTS - โมเดลสังเคราะห์บทสนทนาสมจริงสุดยอด

Dia 1.6B TTS เป็นโมเดล text-to-speech ที่ทันสมัยที่สุดพร้อม 1.6B พารามิเตอร์ที่สร้างเสียงเหมือนมนุษย์ด้วยน้ำเสียง จังหวะ และอารมณ์ที่เป็นธรรมชาติ บน GPU ระดับองค์กร Dia 1.6B TTS สามารถสร้างเสียงแบบเรียลไทม์ โดย GPU A4000 สร้างประมาณ 40 โทเค็น/วินาที (86 โทเค็นเท่ากับเสียง 1 วินาที)

เวอร์ชันเต็มต้องใช้ VRAM ประมาณ 10GB ในการทำงาน เวอร์ชัน Quantized ของ Dia 1.6B TTS มีแผนจะออกในอัปเดตในอนาคตเพื่อเพิ่มความสามารถในการเข้าถึงบนฮาร์ดแวร์ระดับล่าง

ราคา Dia TTS

ซื้อเครดิตการสร้างเสียง Dia TTS เพื่อสัมผัสบริการ text-to-speech AI ระดับมืออาชีพ

Basic

แผน Basic รายปีที่มีราคาดีกว่า

$9.9$7.9/เดือน
  • 12000 เครดิตต่อปี (1000/เดือน)
  • เรียกเก็บเงินรายปี ($94.80/ปี)
  • เอาต์พุตเสียงคุณภาพสูง
  • การสนับสนุนลูกค้ามาตรฐาน

ประหยัดรายปี! ส่วนลด 20% เทียบกับรายเดือน!

ยอดนิยมที่สุด

Pro

แผน Pro รายปี ตัวเลือกที่ดีที่สุดสำหรับมืออาชีพ

$19.9$15.9/เดือน
  • 26400 เครดิตต่อปี (2200/เดือน)
  • เรียกเก็บเงินรายปี ($190.80/ปี)
  • เอาต์พุตเสียงคุณภาพสูง
  • การสนับสนุนลูกค้าแบบเร่งด่วน

ประหยัดรายปี! ส่วนลด 20% เทียบกับรายเดือน!

Ultra

แผน Ultra รายปี เหมาะสำหรับทีมและองค์กร

$36.9$29.9/เดือน
  • 54000 เครดิตต่อปี (4500/เดือน)
  • เรียกเก็บเงินรายปี ($358.80/ปี)
  • เอาต์พุตเสียงคุณภาพสูง
  • การสนับสนุนลูกค้า VIP

ประหยัดรายปี! ส่วนลด 19% เทียบกับรายเดือน!