ElevenLabs udostępnia nową generację modeli text to speech. Jej pierwszym przedstawicielem jest Eleven v3. Rozwiązanie, które obecnie jest dostępne w wersji alpha obsługuje ponad 70 języków. To znaczny skok w porównaniu z poprzednimi modelami, które umożliwiały obsługę 33 języków. Dzięki temu pokrycie zastosowania dla populacji świata wzrosło z 60% do 90%.
Eleven v3 (alpha) od ElevenLabs
Model został stworzony w oparciu o zupełnie nową architekturę. Dzięki temu oferuje niespotykany wcześniej realizm i kontrolę nad generowaniem mowy. Umożliwia na przykład zmianę tonacji w trakcie zdania i płynnie przechodzić pomiędzy postaciami i reagować na znaczniki, takie jak [szept], [śmiech], czy [westchnienie].
„Eleven v3 to najbardziej ekspresyjny model text-to-speech w historii. Umożliwia pełną kontrolę nad emocjami, sposobem wypowiedzi oraz niewerbalnymi sygnałami. Dzięki tagom audio możemy sprawić, by model szeptał, śmiał się, zmieniał akcent, a nawet śpiewał. Możemy też precyzyjnie sterować tempem, emocjami i stylem, by dopasować je do każdego scenariusza. Zgodnie z naszą misją, zwiększyliśmy liczbę obsługiwanych języków do ponad 70. To wszystko jest efektem wizji i zaangażowania mojego współzałożyciela Piotra oraz wybitnego zespołu researchowego, który stworzył. Budowanie dobrych produktów jest trudne, a otwieranie zupełnie nowego rozdziału w rozwoju technologii niemal niemożliwe. Wszyscy w ElevenLabs jesteśmy szczęśliw,i mogąc obserwować, jak ten zespół wnosi magię do naszego życia, a wraz z tą premierą ponownie przesuwamy granice tego, co możliwe – mówi Mati Staniszewski, współzałożyciel ElevenLabs.
Model został stworzony z myślą o twórcach produkujących ekspresyjne treści, takie jak opowiadania, audiobooki, czy dialogi postaci. Dostępny jest obecnie w wersji alpha. Dalsze dostrajanie pozwoli zwiększyć jego niezawodność i precyzję kontroli.
Rozwiązanie jest dostępne na stronie ElevenLabs.
Komentarze
Nie ma jeszcze żadnych komentarzy :)