středa 13. května 2009

Tajemství skenování knih pro Google Book Search

Google Book Search je projekt Googlu, který se snaží digitalizovat maximum knih, zpřístupnit je on-line a umožnit v nich vyhledávat. Je tady ovšem jeden problém. Nástroje pro optické rozpoznávání znaků (OCR, Optical Character Recognition) vyžadují 2D obrázek. U vazby knihy ovšem dochází k deformaci skenovaného obrazu, protože samotná vazba odtlačí knihu od skleněné desky a některé znaky nemusí být rozpoznány. Google se tento problém snaží obejít svým patentem (7508978), který pomocí dvou kamer snímajících v infračervené oblasti nasnímá 3D obraz knihy. Poté se obraz vyrovná podle naskenované deformace stránky a výsledkem je čistý 2D obraz, na který může být použit nástroj pro OCR.

Schéma infračerveného detekčního systému 3D tvaru
(Zdroj: Google, DSL.sk)

Promítaný infračervený obrazec
(Zdroj: Google, DSL.sk)

Google Book Search, podle informací Google z konce roku 2008, dnes obsahuje již více než 7 milionů naskenovaných knih.

Žádné komentáře: