stt přepis hovoru na text
Re: stt přepis hovoru na text
Chcete postavit něco jako https://jarabot.com/ ?
Re: stt přepis hovoru na text
Konverzační AI je aktuální věc, existuje mraky služeb a spousta firem to už používá, zkuste zavolat třeba na O2 infolinku 800 02 02 02. Ale je to extrémně neúspěšné z hlediska spokojenosti volajícího. Máme průzkum, kde to nenaštve jen asi 1% volajících. Zdá se, že řetězení API volání (jako nejdřív převod hlasu na text, pak dotaz na velký textový model, pak převod odpovědi na hlas) nemá budoucnost, a to ani pokud se dělá průběžně pomocí websockets, protože volající s tím nemají trpělivost. Takže teď čekáme na hlasově konverzační AI v reálném čase. Ta od openai momentálně funguje naprosto výborně (pro STT používá Whisper nebo GPT-4o-transcribe), umí skvěle česky i umí během řeči přecházet z jazyka do jazyka, zvládne, když člověk mluví během toho co mluví AI, když přerušuje, mění pokyny a tak. Jediný problém je, že je to hrozně drahé, minuta rozhovoru stojí asi 20 Kč, takže živý operátor je podstatně levnější. Vyzkoušet si to může každý na https://platform.openai.com/playground/realtime (nutno se registorvat a zaplatit aspoň 6 USD + dph kreditu na pár minut zkoušení).
- xsouku04
- Administrátor
- Příspěvky: 8683
- Registrován: pát 15. říj 2010 11:11:44
- Bydliště: Brno
- Kontaktovat uživatele:
Re: stt přepis hovoru na text
Souhlasím. Spíše než nastavovat umělou inteligenci, aby si povídala se zákazníky, je lepší investovat čas do prevence. Tedy zjednodušovat webové stránky, formuláře a celý systém fungování tak, aby se problémům předcházelo a zákazník měl dotazů co nejméně a daly se vyřídit co nejrychleji.tomplee píše: ↑pát 18. dub 2025 14:25:20 Konverzační AI je aktuální věc, existuje mraky služeb a spousta firem to už používá, zkuste zavolat třeba na O2 infolinku 800 02 02 02. Ale je to extrémně neúspěšné z hlediska spokojenosti volajícího. Máme průzkum, kde to nenaštve jen asi 1% volajících. Zdá se, že řetězení API volání (jako nejdřív převod hlasu na text, pak dotaz na velký textový model, pak převod odpovědi na hlas) nemá budoucnost, a to ani pokud se dělá průběžně pomocí websockets, protože volající s tím nemají trpělivost. Takže teď čekáme na hlasově konverzační AI v reálném čase. Ta od openai momentálně funguje naprosto výborně (pro STT používá Whisper nebo GPT-4o-transcribe), umí skvěle česky i umí během řeči přecházet z jazyka do jazyka, zvládne, když člověk mluví během toho co mluví AI, když přerušuje, mění pokyny a tak. Jediný problém je, že je to hrozně drahé, minuta rozhovoru stojí asi 20 Kč, takže živý operátor je podstatně levnější. Vyzkoušet si to může každý na https://platform.openai.com/playground/realtime (nutno se registorvat a zaplatit aspoň 6 USD + dph kreditu na pár minut zkoušení).
Přijde mi, že mnohé firmy dělají pravý opak a pak mají zbytečně velký nápor na podporu. Věci jsou schopni si zkomplikovat tak, že ani živý operátor často neví správnou odpověď na trochu komplikovanější problém. Robot, ten je mimo v podstatě vždy.
Co ale smysl má už dnes, je přepis mluveného vzkazu na text. Dá se v tom pak lépe orientovat, i když to není úplně dokonalé. A zákazníkovi případně zavolat zpět, aby se problém vyřešil. To je zatím jediné, co máme v plánu.
- xsouku04
- Administrátor
- Příspěvky: 8683
- Registrován: pát 15. říj 2010 11:11:44
- Bydliště: Brno
- Kontaktovat uživatele:
Re: stt přepis hovoru na text
Chtěl bych nyní přidat možnost převádění nahraných zvukových vzkazů na text. Hodí se to nám a hodí se to třeba doktorům.
Psaný text je obvykle možné číst mnohem rychleji než si zprávu poslechnout (protože volajícímu kolikrát trvá než se vymáčkne) a v psaném textu se dá také lépe orientovat. A ne vždy je příjemce vzkazu v situaci kdy by si mohlo/chtěl vzkaz poslouchat, ale přečetl by se je rád.
Nyní jsem testoval https://deepgram.com/ Po registraci (chtějí jen email, nic dalšího se neptají) každý dostane 200 USD kredit na testování. Minuta přepisu zvukového souboru stojí cca
0.0077 USD. Což je cca 0,20 Kč/min. Vzhledem k tomu, že zvukové vzkazy bývají většinou do patnácti vteřin, jsou to haléřové položky.
Pravda, chyby to dělá, ale většinou takové, že se význam dá i tak pochopit. (ale už se v tom špatně hledá). A jediný případ, kdy jsem význam nepochopil byl případ, kdy jsem nahrávce nerozuměl ani v reálu, nebylo to ale v podstatné části.
Klidně bych to teď na otestování dal všem zdarma (s limitem délky vzkazu, delší vzkazy jsou často omyly, kdy někdo jen drží sluchátko). Ale mám obavu, aby se někdo že se do jeho vzkazů kouká umělá inteligence napojená na velkého bratra někde v USA
U Whisper, které bychom mohli nechat běžet lokálně se zase obávám velkých hardwarových nároků, možné špatné fungování bez grafické karty, různých možných bugů.
Stejná služba u google stojí cca dvojnásobek, ale pokud nevadí větší zpoždění (batch mode) tak cca polovinu. https://cloud.google.com/speech-to-text/pricing
Psaný text je obvykle možné číst mnohem rychleji než si zprávu poslechnout (protože volajícímu kolikrát trvá než se vymáčkne) a v psaném textu se dá také lépe orientovat. A ne vždy je příjemce vzkazu v situaci kdy by si mohlo/chtěl vzkaz poslouchat, ale přečetl by se je rád.
Nyní jsem testoval https://deepgram.com/ Po registraci (chtějí jen email, nic dalšího se neptají) každý dostane 200 USD kredit na testování. Minuta přepisu zvukového souboru stojí cca
0.0077 USD. Což je cca 0,20 Kč/min. Vzhledem k tomu, že zvukové vzkazy bývají většinou do patnácti vteřin, jsou to haléřové položky.
Kód: Vybrat vše
curl -X POST "https://api.deepgram.com/v1/listen?punctuate=true&model=nova-3&language=cs" -H "Authorization: Token muj_token" --data-binary @zvukovy_soubor.oggKlidně bych to teď na otestování dal všem zdarma (s limitem délky vzkazu, delší vzkazy jsou často omyly, kdy někdo jen drží sluchátko). Ale mám obavu, aby se někdo že se do jeho vzkazů kouká umělá inteligence napojená na velkého bratra někde v USA
U Whisper, které bychom mohli nechat běžet lokálně se zase obávám velkých hardwarových nároků, možné špatné fungování bez grafické karty, různých možných bugů.
Stejná služba u google stojí cca dvojnásobek, ale pokud nevadí větší zpoždění (batch mode) tak cca polovinu. https://cloud.google.com/speech-to-text/pricing
Re: stt přepis hovoru na text
Vypadá to moc pěkně 
jak by se dalo dostat přepis do CRM?
jak by se dalo dostat přepis do CRM?
- xsouku04
- Administrátor
- Příspěvky: 8683
- Registrován: pát 15. říj 2010 11:11:44
- Bydliště: Brno
- Kontaktovat uživatele:
Re: stt přepis hovoru na text
Tak teď jsem několik dní bojoval s speech to text API od googlu.
Deepkgram má totiž některé nepříjemné vlastnosti, jako že je např. schopen napsat nadiktované telefonní číslo slovy, což kazí přehlednost a např. full text hledání.
Další výhoda goolge je, že v případě batch zpracování má nižší ceny za minutu. U krátkých vzkazů je to celkem jedno, ale pokud by chtěl někdo přepisovat celé rozhovory, může to být podstatné.
Při dávkovém zpracování jsou ceny 0.003 USD/minuta 0.066 Kč/min (v případě starších modelů i 0.0024 nebo 0.0016 USD/min).
Aby se dalo dostat na tyto ceny, je potřeba nejdříve zvukový soubor nahrát na google storage (je třeba si předem zřídit bucket - kýbl na gs - google storage), pak přes API požádat na převod do textu. Pak čekat a opakovaně se vyptávat, jestli už je to hotové. A nakonec stáhnout výsledný json soubor s přepisem. Poslední krok je smazat oba soubory z google úložiště, aby se to tam nehromadilo.
Google API rozhraní lze nastavovat též z webu, kterému google říká google console.
Pro přístup přes API je potřeba si na tomto webu nadefinovat "recognizer". Tam se definují parametry převodu a hlavně region. A pozor ne v každém regionu jsou dostupné všechny modely. Např. region global nezná nejnovější modely. Podle nadefinovaného regionu je třeba upravit i url.
Tedy URL vypadá např.To co lze nastavit v google recognizer, lze změnit/přepsat pomocí config v samotném API. Kromě location (region), to je natvrdo. Recognizery tak nějak logicky pak ztrácí smysl když jediné co je nutné nastavit je region.
Nevím jaký je nejefektivnější postup ale já jsem všechny tyto informace tahal z ulhaného chatgpt jako z chlupaté deky. Na užitečné odkazy na dokumentaci vhodnou pro začátečníky jsem nikde nenarazil.
Google si všechny nahrávky co mu pošlete ke zpracování může nechat uložené pro další vylepšování služby. Pokud to nechcete, je potřeba použít modely s příponou _nl (no logs). Ty ale nejsou dostupné pro všechny modely a regiony a na webové rozhraní v nastavování recognizerů chybí úplně. (je to zjevně záměr, aby to nebylo jednoduché)
Asi to chce mít v záloze více služeb, protože člověk nikdy neví kdy nějaká začne vracet špatné výsledky nebo něco změní tak, že to přestane fungovat. Čeština je pro tyto molochy okrajový jazyk.
Deepkgram má totiž některé nepříjemné vlastnosti, jako že je např. schopen napsat nadiktované telefonní číslo slovy, což kazí přehlednost a např. full text hledání.
Další výhoda goolge je, že v případě batch zpracování má nižší ceny za minutu. U krátkých vzkazů je to celkem jedno, ale pokud by chtěl někdo přepisovat celé rozhovory, může to být podstatné.
Při dávkovém zpracování jsou ceny 0.003 USD/minuta 0.066 Kč/min (v případě starších modelů i 0.0024 nebo 0.0016 USD/min).
Aby se dalo dostat na tyto ceny, je potřeba nejdříve zvukový soubor nahrát na google storage (je třeba si předem zřídit bucket - kýbl na gs - google storage), pak přes API požádat na převod do textu. Pak čekat a opakovaně se vyptávat, jestli už je to hotové. A nakonec stáhnout výsledný json soubor s přepisem. Poslední krok je smazat oba soubory z google úložiště, aby se to tam nehromadilo.
Google API rozhraní lze nastavovat též z webu, kterému google říká google console.
Pro přístup přes API je potřeba si na tomto webu nadefinovat "recognizer". Tam se definují parametry převodu a hlavně region. A pozor ne v každém regionu jsou dostupné všechny modely. Např. region global nezná nejnovější modely. Podle nadefinovaného regionu je třeba upravit i url.
Tedy URL vypadá např.
Kód: Vybrat vše
https://europe-west1-speech.googleapis.com/v2/projects/#{PROJECT_ID}/locations/europe-west1/recognizers/#{RECONGNIZER_NAME}:batchRecognizeNevím jaký je nejefektivnější postup ale já jsem všechny tyto informace tahal z ulhaného chatgpt jako z chlupaté deky. Na užitečné odkazy na dokumentaci vhodnou pro začátečníky jsem nikde nenarazil.
Google si všechny nahrávky co mu pošlete ke zpracování může nechat uložené pro další vylepšování služby. Pokud to nechcete, je potřeba použít modely s příponou _nl (no logs). Ty ale nejsou dostupné pro všechny modely a regiony a na webové rozhraní v nastavování recognizerů chybí úplně. (je to zjevně záměr, aby to nebylo jednoduché)
Asi to chce mít v záloze více služeb, protože člověk nikdy neví kdy nějaká začne vracet špatné výsledky nebo něco změní tak, že to přestane fungovat. Čeština je pro tyto molochy okrajový jazyk.