Dia 1.6B TTS
โมเดลบทสนทนาเสียงพูด AI ที่สมจริงสุดยอด
โมเดล text-to-speech โอเพนซอร์ส 1.6B พารามิเตอร์จาก Nari Labs ที่สร้างเสียงพูดเหมือนมนุษย์ด้วยน้ำเสียง จังหวะ และอารมณ์ที่เป็นธรรมชาติ รู้จักกับ Dia 1.6B TTS

Dia 1.6B TTS คืออะไร?
Dia 1.6B TTS เป็นโมเดล AI text-to-speech ที่ทันสมัยที่สุดที่ออกแบบมาสำหรับการสังเคราะห์บทสนทนาที่สมจริงสุดยอด พัฒนาโดย Nari Labs และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0 Dia 1.6B TTS นำเสนอผลลัพธ์เสียงพูดที่เป็นธรรมชาติและแสดงออกที่สามารถแข่งขันกับโซลูชันเชิงพาณิชย์
- การสังเคราะห์เสียงพูดด้วยน้ำเสียงที่เป็นธรรมชาติ จังหวะ และการแสดงออกทางอารมณ์โดยใช้ Dia 1.6B TTS
- การสร้างบทสนทนาหลายผู้พูดที่ปรับให้เหมาะสมด้วย Dia 1.6B TTS
- โมเดล 1.6B พารามิเตอร์ที่ทำงานบน 10GB VRAM
- ความสามารถในการโคลนเสียงผ่าน audio prompting
ฟีเจอร์หลักของ Dia 1.6B TTS
Dia 1.6B TTS คุณภาพเสียงพูดยอดเยี่ยม
Dia 1.6B TTS สร้างเสียงที่ฟังดูเป็นธรรมชาติอย่างเหลือเชื่อด้วยน้ำเสียง จังหวะ และอารมณ์เหมือนมนุษย์ โมเดล AI ขั้นสูงสร้างเสียงพูดที่แทบแยกไม่ออกจากเสียงมนุษย์
Dia 1.6B TTS: รองรับหลายผู้พูด
สร้างการสนทนาหลายผู้พูดได้อย่างง่ายดายโดยใช้แท็กง่ายๆ เช่น [S1] และ [S2] เพื่อระบุเสียงที่แตกต่างกันในข้อความของคุณ รักษาบทสนทนาที่สม่ำเสมอและเป็นธรรมชาติด้วย Dia 1.6B TTS
การโคลนเสียงด้วย Dia 1.6B TTS
โคลนลักษณะเสียงที่เฉพาะเจาะจงโดยใช้ฟีเจอร์ audio prompting ทำให้เอกลักษณ์เสียงสอดคล้องกันในหลายการสร้างสำหรับผลลัพธ์เสียงพูดที่ปรับแต่งเฉพาะบุคคลด้วย Dia 1.6B TTS
Dia 1.6B TTS: โมเดลโอเพนซอร์ส
เผยแพร่ภายใต้ใบอนุญาต Apache 2.0 อนุญาตให้ใช้ฟรีสำหรับวัตถุประสงค์ส่วนบุคคลและเชิงพาณิชย์ น้ำหนักโมเดลและโค้ดที่สมบูรณ์สำหรับ Dia 1.6B TTS พร้อมใช้งานบน GitHub
สาธิตเสียง Dia 1.6B TTS
Dia 1.6B TTS: การใช้งานมาตรฐาน (ตัวอย่าง 1)
ตัวอย่างการสร้างบทสนทนาพื้นฐานจาก Dia 1.6B TTS
Dia 1.6B TTS: การสนทนาธรรมชาติ (ตัวอย่าง 2)
แสดงการโต้ตอบแบบสบายๆ โดยใช้ Dia 1.6B TTS
Dia 1.6B TTS: บทสนทนาแสดงอารมณ์ (ตัวอย่าง 3)
ตัวอย่างเสียงพูดแสดงออกและอารมณ์สูงโดยใช้ Dia 1.6B TTS
Dia 1.6B TTS: เสียงที่ไม่ใช่คำพูด (ตัวอย่าง 4)
รวมถึงเสียงไอ เสียงสูดจมูก เสียงหัวเราะที่สร้างโดย Dia 1.6B TTS
Dia 1.6B TTS: ตัวอย่างแร็พ (ตัวอย่าง 5)
แสดงจังหวะและสัมผัสโดยใช้ Dia 1.6B TTS
Dia 1.6B TTS: ฟีเจอร์ Audio Prompting (ตัวอย่าง 6)
ตัวอย่างการโคลนเสียงโดยใช้ audio prompts ของ Dia 1.6B TTS
หมายเหตุ: เพื่อใช้ audio prompts สำหรับผลลัพธ์คุณภาพสูงใน Dia 1.6B TTS ให้เพิ่มสคริปต์ที่สอดคล้องก่อนข้อความอินพุตของคุณ กำลังพิจารณาการถอดเสียงอัตโนมัติเพื่อความสะดวกในการใช้งาน
ตัวอย่างวิดีโอ Dia 1.6B TTS
Dia 1.6B TTS: คุณภาพพอดแคสต์
แสดงศักยภาพในการสร้างพอดแคสต์โดยใช้ Dia 1.6B TTS
Dia 1.6B TTS: แนะนำโมเดล
เน้นโมเดล 1.6B พารามิเตอร์ของ Dia 1.6B TTS
Dia 1.6B TTS: บทสนทนาสมจริงสุดยอด
แสดงการสร้างแบบครั้งเดียวโดยใช้ Dia 1.6B TTS
วิธีการทำงานของ Dia 1.6B TTS: จากข้อความสู่บทสนทนาที่มีชีวิตชีวา
1. เตรียมสคริปต์ของคุณสำหรับ Dia 1.6B TTS
เขียนหรือวางข้อความที่คุณต้องการให้ Dia 1.6B TTS แปลง ใช้แท็กง่ายๆ เช่น [S1] และ [S2] ก่อนประโยคเพื่อกำหนดเสียงผู้พูดที่แตกต่างกัน คุณยังสามารถรวมสัญญาณที่ไม่ใช่คำพูดเช่น (หัวเราะ) หรือ (ไอ) เพื่อเพิ่มความสมจริง
2. (ตัวเลือก) ให้ Audio Prompts แก่ Dia 1.6B TTS
เพื่อโคลนเสียงที่เฉพาะเจาะจงหรือกำหนดโทนอารมณ์ด้วย Dia 1.6B TTS อัปโหลดตัวอย่างเสียงสั้นๆ (5-15 วินาที) และการถอดเสียงที่ถูกต้อง (พร้อมแท็กผู้พูด) ที่เพิ่มไว้ก่อนสคริปต์หลักในอินพุตของคุณ
3. สร้างเสียงด้วย Dia 1.6B TTS
รันโมเดล Dia 1.6B TTS (ภายในเครื่องผ่านแอปหรือใช้สาธิตออนไลน์) โมเดลประมวลผลสคริปต์ทั้งหมดในรอบเดียว สร้างบทสนทนาที่ราบรื่น
4. ฟังและดาวน์โหลดผลลัพธ์ Dia 1.6B TTS
เล่นเสียงที่สร้างขึ้นโดยตรงจาก Dia 1.6B TTS ผลลัพธ์จับน้ำเสียงที่เป็นธรรมชาติ จังหวะ และแม้กระทั่งสัญญาณที่ไม่ใช่คำพูด สร้างประสบการณ์การฟังที่สมจริงสุดยอด ดาวน์โหลดไฟล์เสียงสำหรับโปรเจ็กต์ของคุณ
คู่มือการติดตั้ง Dia 1.6B TTS
### Windows Installation
1. Clone the repository
git clone https://github.com/nari-labs/dia.git
cd dia
2. Create a Python virtual environment (Python 3.10 recommended)
python -m venv venv
venv\Scripts\activate.bat
3. Install dependencies
python -m pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. Download model weights
# These will download automatically or can be manually downloaded from Hugging Face
5. Launch the application
python app.pyข้อมูลทางเทคนิค Dia 1.6B TTS

Dia 1.6B TTS - โมเดลสังเคราะห์บทสนทนาสมจริงสุดยอด
Dia 1.6B TTS เป็นโมเดล text-to-speech ที่ทันสมัยที่สุดพร้อม 1.6B พารามิเตอร์ที่สร้างเสียงเหมือนมนุษย์ด้วยน้ำเสียง จังหวะ และอารมณ์ที่เป็นธรรมชาติ บน GPU ระดับองค์กร Dia 1.6B TTS สามารถสร้างเสียงแบบเรียลไทม์ โดย GPU A4000 สร้างประมาณ 40 โทเค็น/วินาที (86 โทเค็นเท่ากับเสียง 1 วินาที)
เวอร์ชันเต็มต้องใช้ VRAM ประมาณ 10GB ในการทำงาน เวอร์ชัน Quantized ของ Dia 1.6B TTS มีแผนจะออกในอัปเดตในอนาคตเพื่อเพิ่มความสามารถในการเข้าถึงบนฮาร์ดแวร์ระดับล่าง
ราคา Dia TTS
ซื้อเครดิตการสร้างเสียง Dia TTS เพื่อสัมผัสบริการ text-to-speech AI ระดับมืออาชีพ
Basic
แผน Basic รายปีที่มีราคาดีกว่า
- 12000 เครดิตต่อปี (1000/เดือน)
- เรียกเก็บเงินรายปี ($94.80/ปี)
- เอาต์พุตเสียงคุณภาพสูง
- การสนับสนุนลูกค้ามาตรฐาน
ประหยัดรายปี! ส่วนลด 20% เทียบกับรายเดือน!
Pro
แผน Pro รายปี ตัวเลือกที่ดีที่สุดสำหรับมืออาชีพ
- 26400 เครดิตต่อปี (2200/เดือน)
- เรียกเก็บเงินรายปี ($190.80/ปี)
- เอาต์พุตเสียงคุณภาพสูง
- การสนับสนุนลูกค้าแบบเร่งด่วน
ประหยัดรายปี! ส่วนลด 20% เทียบกับรายเดือน!
Ultra
แผน Ultra รายปี เหมาะสำหรับทีมและองค์กร
- 54000 เครดิตต่อปี (4500/เดือน)
- เรียกเก็บเงินรายปี ($358.80/ปี)
- เอาต์พุตเสียงคุณภาพสูง
- การสนับสนุนลูกค้า VIP
ประหยัดรายปี! ส่วนลด 19% เทียบกับรายเดือน!