OCR – tři písmenka, která pomáhají s elektronizací dokumentů


Nepochybně jste se již ocitli v situaci, kdy jste v ruce drželi potištěný papír s důležitým obsahem, který jste potřebovali nějak “nacpat” do počítače, protože jeho elektronická podoba buď neexistovala, nebo jste neměli tušení, kde by mohla být, což je de facto totéž. Pokud nejste zdatná písařka, čeká na vás i několik hodin opisování a úmorného ťukání do počítače. Existuje však technologie, která vám v mnoha případech tento přepis může usnadnit. Označuje se třemi písmenky – OCR, což je technologie pro optické rozpoznávání písma, a v dnešní době je například součástí vybavení celé řady běžných scannerů.



Je třeba říci, že to zatím ještě není technologie samospasitelná, takže záleží také na kvalitě a provedení převáděného dokumentu, množství prvků (obrázků, tabulek) na stránce či ostrosti písmenek, ale pro běžný lineární text může být velmi dobrou pomůckou. OCR je metoda optického rozpoznávání znaků (z anglického Optical Character Recognition), umožňující s pomocí scanneru digitalizaci tištěných textů, tedy převodu do počítačového formátu, s nímž pak lze pracovat jako s normálním počítačovým textem.

Převedený text je téměř vždy třeba posléze ještě podrobit důkladné korektuře, protože OCR technologie nerozezná pokaždé všechna písmena správně. OCR se obvykle využívá pro převod všech tištěných výstupy z různých typů tiskáren a také pro předlohy vytištěné knihtiskem. Pokud je však předloha nekvalitní (příliš slabé písmo, hodně tabulek a obrázků v textu), pak vám však nezbude než text přece jenom ručně přepsat, protože OCR vám nebude schopné poskytnout kvalitní a především použitelný výstup.

První pokusy o optické rozpoznávání písma byly zahájeny přibližně v polovině 20. století. V roce 1966 se pak v USA standardizovalo tzv. písmo OCR-A, první písmo umožňující strojové čtení. Písmo však nebylo dobře čitelné lidským okem. Nedlouho poté se v roce 1968 v Evropě objevil standard OCR-B. Jeho autorem byl Adrian Frutiger a dal takto základ soudobým technologiím OCR. Není to sice standard tak dobře opticky čitelný, je však pro změnu dobře čitelný okem.

Z vlastní zkušenosti mohu potvrdit, že u běžných dokumentů je OCR technologie dobrým pomocníkem. Na rozdíl od dřívějších časů nyní již obsahuje i podporu pro české znaky (což je však potřeba zkontrolovat při případném výběru vhodného scanneru). Její využití je však zcela na uvážení každého z vás.

Zdroj: Wikipedie

Redakce