Zpracování naskenovaných obrázků knihy

Odkazy na zajímavé články ze světa Linuxu.
Zamčeno
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8146
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Zpracování naskenovaných obrázků knihy

Příspěvek od xsouku04 »

V adresáři mám cca 100 naskenovaných obrázků .jpg v rozlišení 1700x2338 . Je to knížka, kterou bych si rád přečetl, bohužel se už neprodává a tak nezbývá než ji číst z monitoru, nebo vytisknout.
K tisku tiskárně se soubory typu jpg nehodí, je dobré je před tiskem zkonvertovat na monochromatické obrázky. Dnešní tiskárny nic jiného než monochromatické obrázky tisknout totiž neumí. Tedy obrázky co se skládají jen z bílých nebo černých bodů. Při té příležitosti je i ořežu, aby černých okrajů bylo co nejméně.

Kód: Vybrat vše

convert ps*.jpg -monochrome -crop 1500x2000+80+140 m%03d.gif
Naní mám va dresáři spousty sobuorů m000.gif až m099.gif . Naní z nich vytvořím PDF soubor.

Kód: Vybrat vše

convert m*.gif kniha.pdf
Vznikne mi malé (v mém případě jen 8 M) a velmi snadno tisknutelné PDF. Obstarožní Laserová tiskárna to jen hrne, navíc v mém případě rovnou oboustranně.

Pokud bych se rozhodl tisknout rovnou jpg soubory, konverzi z barev na monochromatický obraz co dovedou tisknout tiskárny by musela obstarat samotná tiskárna, což by trvalo velice dlouho a výsledek by nebyl tak zdařilý.
luky
Příspěvky: 635
Registrován: sob 24. bře 2012 20:56:12

Re: Zpracování naskenovaných obrázků knihy

Příspěvek od luky »

tak to je velice dobrý návod - hlavně rychlý. Proč jste ale neskenoval knihu rovnou do pdf? Neuměl to váš skenr? Nebo jste počítal s úpravou "fotografií" (ořez)?
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8146
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Re: Zpracování naskenovaných obrázků knihy

Příspěvek od xsouku04 »

Obrázky jsem našel na netu. :) Jinak pokud skenuji do pdf, tak dělám úplně stejný postup. Nejdřív do gif a pak to teprve převedu do pdf.
luky
Příspěvky: 635
Registrován: sob 24. bře 2012 20:56:12

Re: Zpracování naskenovaných obrázků knihy

Příspěvek od luky »

dobrý den, prosím o radu,
existuje nějaký způsob jak v linuxu zpracovat PDF soubor obsahující desítky stránek textu naskenovaných jako obrázky (soubor má 50 MB) do elektronické podoby textu (ideálně pomocí OCR)? Existuje šikovný program Scan Tailor, ten ale předpokládá, že mám jednotlivé skeny jako uloženy jako obrázky (tiff, jpg, gif, bmp aj.)

Existuje nějaký šikovný způsob, jak toto vyřešit? Napadla mě aplikace Krita, ta ale otevře PDF soubor jako jeden obrázek o mnoha překrývajících se vrstvách (1 vrstva = 1 strana z PDF)
Díky
Naposledy upravil(a) luky dne ned 26. kvě 2013 21:10:32, celkem upraveno 1 x.
luky
Příspěvky: 635
Registrován: sob 24. bře 2012 20:56:12

Re: Zpracování naskenovaných obrázků knihy

Příspěvek od luky »

nakonec jsem našel:
pdfimages soubor.pdf fotka -j

- tento příkaz z dokumentu soubor.pdf nadělá z každé jeho stránky jeden obrázek (soubory fotka-000.jpgfotka-xxx.jpg)
- parametr -j znamená, že se vytvoří jpg obrázky

Pozn.: pdfimages je součástí balíčku poppler-tools

pěkný návod potom najdete na:
http://www.abclinuxu.cz/clanky/scan-tai ... varime-pdf
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8146
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Re: Zpracování naskenovaných obrázků knihy

Příspěvek od xsouku04 »

luky píše:nakonec jsem našel:
pdfimages soubor.pdf fotka -j

- tento příkaz z dokumentu soubor.pdf nadělá z každé jeho stránky jeden obrázek (soubory fotka-000.jpgfotka-xxx.jpg)
- parametr -j znamená, že se vytvoří jpg obrázky

Pozn.: pdfimages je součástí balíčku poppler-tools

pěkný návod potom najdete na:
http://www.abclinuxu.cz/clanky/scan-tai ... varime-pdf
Řešení existuje určitě více. Např. použít příkaz convert z balíčku imagemagick. I když zvona nevím jak zapsat, aby každá stránka byla zvlášť soubor. Doporučoval bych ale spíše převádět do tiff nebo gif. Programy OCR obvykle mnohem raději pracují s černo bílými obrázky bez odstínů šedi. A na to nemusí formát jpg být zrovna vhodný.
Zamčeno