Pomiń

Eleven v3 już dostępny dla wszystkich

Opublikowano

PosłuchajPosłuchaj tego artykułu

Eleven v3, nasz najnowszy

Od premiery Alphy cały czas ulepszaliśmy model. Najważniejsze zmiany:

Stabilniejszy. W testach użytkownicy wybierali nową wersję w 72% przypadków zamiast poprzedniej Alphy.

Dokładniejszy. Znacznie poprawiliśmy rozpoznawanie liczb, symboli i specjalnych oznaczeń w różnych językach.

Poprawa dokładności

Modele Text to Speech muszą zrozumieć, co piszesz, i zdecydować, jak to wypowiedzieć. Te same symbole mogą znaczyć coś innego w różnych kontekstach.

Na przykład numer telefonu: "+49 170 9876543"

Czasem nasze modele czytały to jako "plus czterdzieści dziewięć, sto siedemdziesiąt, dziewięć milionów osiemset siedemdziesiąt sześć tysięcy pięćset czterdzieści trzy" – traktując cyfry jak duże liczby zamiast ciągu cyfr. Poprawne odczytanie to "plus cztery dziewięć, jeden siedem zero, dziewięć osiem siedem sześć pięć cztery trzy."

Takie błędy pojawiały się w różnych kategoriach – wyniki sportowe, wzory chemiczne, waluty, współrzędne – wszędzie tam, gdzie model musiał zinterpretować symbole i zdecydować, jak je przeczytać.

Testowaliśmy na naszym wewnętrznym benchmarku obejmującym 27 kategorii w 8 językach.

Podsumowanie: 68% mniej błędów. Liczba błędów spadła z 15,3% do 4,9%.

Błędy według kategorii:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

Największa poprawa jest tam, gdzie kontekst decyduje o znaczeniu – na przykład dwukropek może oznaczać wynik meczu, godzinę albo proporcje, w zależności od tekstu.

Przykłady

Waluty — poprawna wartość:

Wpis:  ¥250,000

Przed: 25 000 jenów

Po:  250 000 jenów

Wzory chemiczne — symbole zachowane poprawnie:

Wpis:  SO₂

Przed: "siarka podwójna" (zniekształcone)

Po:  "S O dwa"

Wyniki sportowe — interpretacja zależna od kontekstu:

Wpis:  Wynik końcowy: 102-98

Przed: "sto dwa minus dziewięćdziesiąt osiem"

Po:  "sto dwa do dziewięćdziesięciu ośmiu"

Dostępność

Eleven v3 jest już dostępny na wszystkich platformach.

Podobne artykuły

Twórz z najwyższej jakości audio AI

🔍 Ferramentas de Espionagem
Servidor: srv1638767 · BR-SP