stt přepis hovoru na text

Jak ovládat Odorik a používat služby pomocí speciálních programů a aplikací.
kurandin
Příspěvky: 20
Registrován: úte 29. črc 2014 13:15:50

Re: stt přepis hovoru na text

Příspěvek od kurandin »

Chcete postavit něco jako https://jarabot.com/ ?
tomplee
Příspěvky: 54
Registrován: úte 16. črc 2013 12:12:29

Re: stt přepis hovoru na text

Příspěvek od tomplee »

Konverzační AI je aktuální věc, existuje mraky služeb a spousta firem to už používá, zkuste zavolat třeba na O2 infolinku 800 02 02 02. Ale je to extrémně neúspěšné z hlediska spokojenosti volajícího. Máme průzkum, kde to nenaštve jen asi 1% volajících. Zdá se, že řetězení API volání (jako nejdřív převod hlasu na text, pak dotaz na velký textový model, pak převod odpovědi na hlas) nemá budoucnost, a to ani pokud se dělá průběžně pomocí websockets, protože volající s tím nemají trpělivost. Takže teď čekáme na hlasově konverzační AI v reálném čase. Ta od openai momentálně funguje naprosto výborně (pro STT používá Whisper nebo GPT-4o-transcribe), umí skvěle česky i umí během řeči přecházet z jazyka do jazyka, zvládne, když člověk mluví během toho co mluví AI, když přerušuje, mění pokyny a tak. Jediný problém je, že je to hrozně drahé, minuta rozhovoru stojí asi 20 Kč, takže živý operátor je podstatně levnější. Vyzkoušet si to může každý na https://platform.openai.com/playground/realtime (nutno se registorvat a zaplatit aspoň 6 USD + dph kreditu na pár minut zkoušení).
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8510
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Re: stt přepis hovoru na text

Příspěvek od xsouku04 »

tomplee píše: pát 18. dub 2025 14:25:20 Konverzační AI je aktuální věc, existuje mraky služeb a spousta firem to už používá, zkuste zavolat třeba na O2 infolinku 800 02 02 02. Ale je to extrémně neúspěšné z hlediska spokojenosti volajícího. Máme průzkum, kde to nenaštve jen asi 1% volajících. Zdá se, že řetězení API volání (jako nejdřív převod hlasu na text, pak dotaz na velký textový model, pak převod odpovědi na hlas) nemá budoucnost, a to ani pokud se dělá průběžně pomocí websockets, protože volající s tím nemají trpělivost. Takže teď čekáme na hlasově konverzační AI v reálném čase. Ta od openai momentálně funguje naprosto výborně (pro STT používá Whisper nebo GPT-4o-transcribe), umí skvěle česky i umí během řeči přecházet z jazyka do jazyka, zvládne, když člověk mluví během toho co mluví AI, když přerušuje, mění pokyny a tak. Jediný problém je, že je to hrozně drahé, minuta rozhovoru stojí asi 20 Kč, takže živý operátor je podstatně levnější. Vyzkoušet si to může každý na https://platform.openai.com/playground/realtime (nutno se registorvat a zaplatit aspoň 6 USD + dph kreditu na pár minut zkoušení).
Souhlasím. Spíše než nastavovat umělou inteligenci, aby si povídala se zákazníky, je lepší investovat čas do prevence. Tedy zjednodušovat webové stránky, formuláře a celý systém fungování tak, aby se problémům předcházelo a zákazník měl dotazů co nejméně a daly se vyřídit co nejrychleji.

Přijde mi, že mnohé firmy dělají pravý opak a pak mají zbytečně velký nápor na podporu. Věci jsou schopni si zkomplikovat tak, že ani živý operátor často neví správnou odpověď na trochu komplikovanější problém. Robot, ten je mimo v podstatě vždy.

Co ale smysl má už dnes, je přepis mluveného vzkazu na text. Dá se v tom pak lépe orientovat, i když to není úplně dokonalé. A zákazníkovi případně zavolat zpět, aby se problém vyřešil. To je zatím jediné, co máme v plánu.
Odpovědět