Dia2-2B — โมเดล TTS โอเพนซอร์สรุ่นใหม่จาก Nari Labs
Dia2-2B เป็นโมเดล TTS โอเพนซอร์สที่มีพารามิเตอร์ 2 พันล้านตัวจาก Nari Labs — ผู้สืบทอดของ Dia 1.6B ด้วยคุณภาพเสียงที่เหนือกว่า อารมณ์ที่สมจริงยิ่งขึ้น และบทสนทนาแบบสตรีมมิ่ง มียอดดาวน์โหลดมากกว่า 11,000 ครั้งบน Hugging Face แล้ว สนใจเทคโนโลยีเสียง AI? ลองใช้เครื่องสร้างเสียง AI และการโคลนเสียง AI ของเราฟรี
สเปคโมเดล Dia2-2B
จุดเด่นของ Dia2-2B
พารามิเตอร์ 2 พันล้าน — ทรงพลังกว่า คุณภาพเสียงดีกว่า
Dia2-2B มีพารามิเตอร์ 2 พันล้านตัว เทียบกับ 1.6 พันล้านในโมเดล Dia ดั้งเดิม สถาปัตยกรรมที่ใหญ่กว่าจับรายละเอียดเสียงที่ละเอียดกว่า ทำนองเสียงที่ราบรื่นกว่า และน้ำเสียงที่เป็นธรรมชาติมากขึ้นสำหรับการพูดภาษาอังกฤษ
การสังเคราะห์เสียงที่รับรู้อารมณ์
Dia2-2B เข้าใจบริบทและปรับการแสดงอารมณ์โดยอัตโนมัติ — ความสุข ความเศร้า ความตื่นเต้น ความสงบ และความประหลาดใจไหลอย่างเป็นธรรมชาติโดยไม่ต้องปรับแต่งด้วยตนเอง โมเดลได้รับการฝึกฝนเฉพาะสำหรับการสร้างบทสนทนาที่มีอารมณ์
สร้างขึ้นเพื่อประสิทธิภาพแบบเรียลไทม์
Dia2-2B รองรับ CUDA graph และไปป์ไลน์การอนุมานที่ปรับแต่งแล้ว ด้วยความแม่นยำ bfloat16 และเอาต์พุตแบบสตรีมมิ่ง ให้การสร้างเสียงที่มีเวลาแฝงต่ำ เหมาะสำหรับเวิร์กโฟลว์การผลิต
บทสนทนาแบบสตรีมมิ่ง — สร้างแบบเรียลไทม์
Dia2-2B ไม่ต้องการข้อความทั้งหมดล่วงหน้า — เริ่มสร้างเสียงจากคำแรกๆ เพียงไม่กี่คำ เหมาะสำหรับ AI สนทนาแบบเรียลไทม์ ผู้ช่วยสด และแอปพลิเคชันแบบโต้ตอบ
โอเพนซอร์สเต็มรูปแบบ — รันได้ทุกที่
Dia2-2B เผยแพร่เป็นโอเพนซอร์สบน Hugging Face รันในเครื่อง ติดตั้งบนเซิร์ฟเวอร์ของคุณเอง หรือใช้ผ่าน Dia TTS — ทางเลือกเป็นของคุณ ไม่มีการผูกมัดกับผู้ให้บริการ โปร่งใสเต็มที่
ผ่านการพิสูจน์แล้ว — มากกว่า 11,000 ดาวน์โหลด
ด้วยยอดดาวน์โหลดมากกว่า 11,000 ครั้งและ 157 ไลค์บน Hugging Face Dia2-2B ได้รับความไว้วางใจจากนักพัฒนา นักวิจัย และครีเอเตอร์หลายพันคนทั่วโลก