Ahojte, možno sa to bude niekomu hodiť, tak to píšem sem na fórum.
Čítať SMSky, ktoré prichádzajú ako FAX v bitmapovom PDFku na email je otravné. Tak som si napísal Perlový skript, ktorý to PDFko zOCRkuje, vyparsuje z neho čistý obsah SMS správy, nahradí späť znaky ktoré boli zmenené (dvojtecka na : a pod.) a vypíše ho na výstup. Používa tesseract a poppler.
Je dostupný na: https://github.com/pali/smsfax2txt/blob ... smsfax2txt
Emaily poväčšinou čítam v emailom klientovi neomutt a vďaka nastaveniu mailcap (je v odkaze) sa mi takto doručená SMS automaticky v zobrazí v textovej forme, ktorú je možné kopírovať a pod.
OCRkovanie SMS doručených ako FAX
- xsouku04
- Administrátor
- Příspěvky: 8184
- Registrován: pát 15. říj 2010 11:11:44
- Bydliště: Brno
- Kontaktovat uživatele:
Re: OCRkovanie SMS doručených ako FAX
Aha to bychom mohli tedy převzít a dělat i u nás. Text by mohl být v těle emailu. PDF příloha by ta musela zůstat pro případ, že by OCR udělalo chybu nebo úplně selhalo. Opět ale platí, že na SMS do PDF není moc dobré se na to spoléhat, protože byly v minulosti potíže se spolehlivostí a rychlostí doručování. Navíc odesilatel obvykle platí zvýšenou sazbu na pevnou linku a nepoužijí se volné SMS. V každé případě děkujeme za odkaz.
Kľudne to môžete použiť aj u vás. Očakáva to formát tých SMS FAXov taký, aký je teraz. Takže sa to môže v budúcnosti pokaziť ak sa O2/Materna rozhodne zmeniť layout. Parsovanie v tom skripte som sa snažil urobiť tak, aby sa zrekonštruovala pôvodná SMS včítane medzier, zalomených slov alebo špeciálnych znakov (ako je / : -). Preto sú tam tie konkrétne parametre pre tesseract a pdftotext.
Jediná nevýhoda je tá, že na "pomalších" strojoch beží tesseract aj 3 sekundy. To OCRkovanie nie je úplne lacná záležitosť. Avšak na mojej vzorke SMS FAXov si poradil so 100% správnosťou aj pri českých prehláskovaných znakoch.
Jediná nevýhoda je tá, že na "pomalších" strojoch beží tesseract aj 3 sekundy. To OCRkovanie nie je úplne lacná záležitosť. Avšak na mojej vzorke SMS FAXov si poradil so 100% správnosťou aj pri českých prehláskovaných znakoch.
Re: OCRkovanie SMS doručených ako FAX
S tesseractem mám já i kolegové jen ty nejlepší zkušenosti. Až se často divím, jak kouzelně si to umí poradit s českým textem. Takže (zásadní) chyby nebo selhávání bych opravdu nečekal. Ano, trochu to zatěžuje systém, ale výsledek za to myslím stojí.
Mírně OT: Jakou verzi tesseractu používáte – respektive, máte zkušenosti s generací 4.x? Na našich strojích běží zatím všude 3.02 nebo 3.05; a vzhledem k tomu, že funguje bezvadně a 4.x doznala koncepční změny (pokud správně chápu), tak se nám do upgrade moc nechce...
Mírně OT: Jakou verzi tesseractu používáte – respektive, máte zkušenosti s generací 4.x? Na našich strojích běží zatím všude 3.02 nebo 3.05; a vzhledem k tomu, že funguje bezvadně a 4.x doznala koncepční změny (pokud správně chápu), tak se nám do upgrade moc nechce...
Re: OCRkovanie SMS doručených ako FAX
Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.
Re: OCRkovanie SMS doručených ako FAX
Za to vám patří dík.pali píše:Používam verziu 4.0.0. Upravil som už ale ten script na githube aby fungoval aj so staršiou verziou 3.04.
Odpusťte ještě otázku: Mohu z toho, co píšete, odvodit, že verze 4.0.0 funguje nejméně stejně tak dobře, jako verze předcházející (zejména pokud jde o kvalitu konverze)? (Předpokládám, že s ní máte zkušenosti.) Promiňte, že se ptám tady, ale na jiných fórech, která znám, se moc nevyskytují lidé, kteří by používali tesseract na české nebo slovenské texty, přece jen jsou to velmi menšinové jazyky...
Re: OCRkovanie SMS doručených ako FAX
Ja som v podstate ani nezistil, že po upgrade systému sa mi upgradol aj tesseract z verzie 3.04 na 4.0.0. Nejaké parametre sa síce zadávajú inak (napr. jedno mínus sa mení na dva a pod.) ale funguje to. Ja som nejak nepostrehol zásadné problémy. Občas sa s tým treba vyhrať (napr. zvoliť iné -psm) alebo to obaliť ďalšími skriptami kvôli formátovaniu (ako som to urobil v smsfax2txt). Niekedy to OCRkovanie nedopadne správne ale zas nepoznám lepší nástroj na český a slovenský text.
Re: OCRkovanie SMS doručených ako FAX
Rozumím – a děkuji.
Re: OCRkovanie SMS doručených ako FAX
Já bych se taky přimluvil za to, abyste to pustili u vás, přijde mi to celkem užitečné.
Ano, celé SMS na pevnou linku jsou nespolehlivé, ale občas je těžké lidem vysvětlit, že mají na jedno číslo volat a na jiné poslat SMSky, takže mi na moje primární hlasové číslo občas někdo nějakou SMSku pošle. Kdyby přišla jako text, bylo by to celkem fajn.
Ano, celé SMS na pevnou linku jsou nespolehlivé, ale občas je těžké lidem vysvětlit, že mají na jedno číslo volat a na jiné poslat SMSky, takže mi na moje primární hlasové číslo občas někdo nějakou SMSku pošle. Kdyby přišla jako text, bylo by to celkem fajn.