OCRkovanie SMS doručených ako FAX

Programy, které slouží k volání přes internet z počítače nebo chytrých mobilů.
Odpovědět
pali
Příspěvky: 100
Registrován: čtv 08. srp 2019 20:20:55

OCRkovanie SMS doručených ako FAX

Příspěvek od pali »

Ahojte, možno sa to bude niekomu hodiť, tak to píšem sem na fórum.

Čítať SMSky, ktoré prichádzajú ako FAX v bitmapovom PDFku na email je otravné. Tak som si napísal Perlový skript, ktorý to PDFko zOCRkuje, vyparsuje z neho čistý obsah SMS správy, nahradí späť znaky ktoré boli zmenené (dvojtecka na : a pod.) a vypíše ho na výstup. Používa tesseract a poppler.

Je dostupný na: https://github.com/pali/smsfax2txt/blob ... smsfax2txt

Emaily poväčšinou čítam v emailom klientovi neomutt a vďaka nastaveniu mailcap (je v odkaze) sa mi takto doručená SMS automaticky v zobrazí v textovej forme, ktorú je možné kopírovať a pod.
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8146
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od xsouku04 »

Aha to bychom mohli tedy převzít a dělat i u nás. Text by mohl být v těle emailu. PDF příloha by ta musela zůstat pro případ, že by OCR udělalo chybu nebo úplně selhalo. Opět ale platí, že na SMS do PDF není moc dobré se na to spoléhat, protože byly v minulosti potíže se spolehlivostí a rychlostí doručování. Navíc odesilatel obvykle platí zvýšenou sazbu na pevnou linku a nepoužijí se volné SMS. V každé případě děkujeme za odkaz.
pali
Příspěvky: 100
Registrován: čtv 08. srp 2019 20:20:55

Příspěvek od pali »

Kľudne to môžete použiť aj u vás. Očakáva to formát tých SMS FAXov taký, aký je teraz. Takže sa to môže v budúcnosti pokaziť ak sa O2/Materna rozhodne zmeniť layout. Parsovanie v tom skripte som sa snažil urobiť tak, aby sa zrekonštruovala pôvodná SMS včítane medzier, zalomených slov alebo špeciálnych znakov (ako je / : -). Preto sú tam tie konkrétne parametre pre tesseract a pdftotext.

Jediná nevýhoda je tá, že na "pomalších" strojoch beží tesseract aj 3 sekundy. To OCRkovanie nie je úplne lacná záležitosť. Avšak na mojej vzorke SMS FAXov si poradil so 100% správnosťou aj pri českých prehláskovaných znakoch.
jlo
Příspěvky: 147
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od jlo »

S tesseractem mám já i kolegové jen ty nejlepší zkušenosti. Až se často divím, jak kouzelně si to umí poradit s českým textem. Takže (zásadní) chyby nebo selhávání bych opravdu nečekal. Ano, trochu to zatěžuje systém, ale výsledek za to myslím stojí.
Mírně OT: Jakou verzi tesseractu používáte – respektive, máte zkušenosti s generací 4.x? Na našich strojích běží zatím všude 3.02 nebo 3.05; a vzhledem k tomu, že funguje bezvadně a 4.x doznala koncepční změny (pokud správně chápu), tak se nám do upgrade moc nechce...
pali
Příspěvky: 100
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od pali »

Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.
jlo
Příspěvky: 147
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od jlo »

pali píše:Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.
Za to vám patří dík.
Odpusťte ještě otázku: Mohu z toho, co píšete, odvodit, že verze 4.0.0 funguje nejméně stejně tak dobře, jako verze předcházející (zejména pokud jde o kvalitu konverze)? (Předpokládám, že s ní máte zkušenosti.) Promiňte, že se ptám tady, ale na jiných fórech, která znám, se moc nevyskytují lidé, kteří by používali tesseract na české nebo slovenské texty, přece jen jsou to velmi menšinové jazyky...
pali
Příspěvky: 100
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od pali »

Ja som v podstate ani nezistil, že po upgrade systému sa mi upgradol aj tesseract z verzie 3.04 na 4.0.0. Nejaké parametre sa síce zadávajú inak (napr. jedno mínus sa mení na dva a pod.) ale funguje to. Ja som nejak nepostrehol zásadné problémy. Občas sa s tým treba vyhrať (napr. zvoliť iné -psm) alebo to obaliť ďalšími skriptami kvôli formátovaniu (ako som to urobil v smsfax2txt). Niekedy to OCRkovanie nedopadne správne ale zas nepoznám lepší nástroj na český a slovenský text.
jlo
Příspěvky: 147
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od jlo »

Rozumím – a děkuji.
regnarg
Příspěvky: 15
Registrován: ned 01. bře 2015 14:25:42

Re: OCRkovanie SMS doručených ako FAX

Příspěvek od regnarg »

Já bych se taky přimluvil za to, abyste to pustili u vás, přijde mi to celkem užitečné.

Ano, celé SMS na pevnou linku jsou nespolehlivé, ale občas je těžké lidem vysvětlit, že mají na jedno číslo volat a na jiné poslat SMSky, takže mi na moje primární hlasové číslo občas někdo nějakou SMSku pošle. Kdyby přišla jako text, bylo by to celkem fajn.
Odpovědět