OCRkovanie SMS doručených ako FAX

Programy, které slouží k volání přes internet z počítače nebo chytrých mobilů.

OCRkovanie SMS doručených ako FAX

Příspěvekod pali » pon 20. dub 2020 21:29:54

Ahojte, možno sa to bude niekomu hodiť, tak to píšem sem na fórum.

Čítať SMSky, ktoré prichádzajú ako FAX v bitmapovom PDFku na email je otravné. Tak som si napísal Perlový skript, ktorý to PDFko zOCRkuje, vyparsuje z neho čistý obsah SMS správy, nahradí späť znaky ktoré boli zmenené (dvojtecka na : a pod.) a vypíše ho na výstup. Používa tesseract a poppler.

Je dostupný na: https://github.com/pali/smsfax2txt/blob/master/smsfax2txt

Emaily poväčšinou čítam v emailom klientovi neomutt a vďaka nastaveniu mailcap (je v odkaze) sa mi takto doručená SMS automaticky v zobrazí v textovej forme, ktorú je možné kopírovať a pod.
pali
 
Příspěvky: 46
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod xsouku04 » pát 24. dub 2020 7:11:12

Aha to bychom mohli tedy převzít a dělat i u nás. Text by mohl být v těle emailu. PDF příloha by ta musela zůstat pro případ, že by OCR udělalo chybu nebo úplně selhalo. Opět ale platí, že na SMS do PDF není moc dobré se na to spoléhat, protože byly v minulosti potíže se spolehlivostí a rychlostí doručování. Navíc odesilatel obvykle platí zvýšenou sazbu na pevnou linku a nepoužijí se volné SMS. V každé případě děkujeme za odkaz.
Uživatelský avatar
xsouku04
Administrátor
 
Příspěvky: 7101
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno

Příspěvekod pali » pát 24. dub 2020 10:23:51

Kľudne to môžete použiť aj u vás. Očakáva to formát tých SMS FAXov taký, aký je teraz. Takže sa to môže v budúcnosti pokaziť ak sa O2/Materna rozhodne zmeniť layout. Parsovanie v tom skripte som sa snažil urobiť tak, aby sa zrekonštruovala pôvodná SMS včítane medzier, zalomených slov alebo špeciálnych znakov (ako je / : -). Preto sú tam tie konkrétne parametre pre tesseract a pdftotext.

Jediná nevýhoda je tá, že na "pomalších" strojoch beží tesseract aj 3 sekundy. To OCRkovanie nie je úplne lacná záležitosť. Avšak na mojej vzorke SMS FAXov si poradil so 100% správnosťou aj pri českých prehláskovaných znakoch.
pali
 
Příspěvky: 46
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod jlo » sob 25. dub 2020 0:18:31

S tesseractem mám já i kolegové jen ty nejlepší zkušenosti. Až se často divím, jak kouzelně si to umí poradit s českým textem. Takže (zásadní) chyby nebo selhávání bych opravdu nečekal. Ano, trochu to zatěžuje systém, ale výsledek za to myslím stojí.
Mírně OT: Jakou verzi tesseractu používáte – respektive, máte zkušenosti s generací 4.x? Na našich strojích běží zatím všude 3.02 nebo 3.05; a vzhledem k tomu, že funguje bezvadně a 4.x doznala koncepční změny (pokud správně chápu), tak se nám do upgrade moc nechce...
jlo
 
Příspěvky: 91
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod pali » sob 25. dub 2020 0:52:24

Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.
pali
 
Příspěvky: 46
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod jlo » stř 29. dub 2020 12:12:15

pali píše:Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.

Za to vám patří dík.
Odpusťte ještě otázku: Mohu z toho, co píšete, odvodit, že verze 4.0.0 funguje nejméně stejně tak dobře, jako verze předcházející (zejména pokud jde o kvalitu konverze)? (Předpokládám, že s ní máte zkušenosti.) Promiňte, že se ptám tady, ale na jiných fórech, která znám, se moc nevyskytují lidé, kteří by používali tesseract na české nebo slovenské texty, přece jen jsou to velmi menšinové jazyky...
jlo
 
Příspěvky: 91
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod pali » stř 29. dub 2020 12:30:25

Ja som v podstate ani nezistil, že po upgrade systému sa mi upgradol aj tesseract z verzie 3.04 na 4.0.0. Nejaké parametre sa síce zadávajú inak (napr. jedno mínus sa mení na dva a pod.) ale funguje to. Ja som nejak nepostrehol zásadné problémy. Občas sa s tým treba vyhrať (napr. zvoliť iné -psm) alebo to obaliť ďalšími skriptami kvôli formátovaniu (ako som to urobil v smsfax2txt). Niekedy to OCRkovanie nedopadne správne ale zas nepoznám lepší nástroj na český a slovenský text.
pali
 
Příspěvky: 46
Registrován: čtv 08. srp 2019 20:20:55

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod jlo » stř 29. dub 2020 18:32:13

Rozumím – a děkuji.
jlo
 
Příspěvky: 91
Registrován: pon 08. dub 2013 12:32:18

Re: OCRkovanie SMS doručených ako FAX

Příspěvekod regnarg » stř 22. črc 2020 19:06:35

Já bych se taky přimluvil za to, abyste to pustili u vás, přijde mi to celkem užitečné.

Ano, celé SMS na pevnou linku jsou nespolehlivé, ale občas je těžké lidem vysvětlit, že mají na jedno číslo volat a na jiné poslat SMSky, takže mi na moje primární hlasové číslo občas někdo nějakou SMSku pošle. Kdyby přišla jako text, bylo by to celkem fajn.
regnarg
 
Příspěvky: 10
Registrován: ned 01. bře 2015 15:25:42


Zpět na VoIP Software

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 1 návštěvník