Már a szkennelt fájlokba is belelát a Google

A Google ambiciózus célkitűzése, hogy idővel a világon elérhető összes információt indexelni akarja - a vállalat most egy kis lépéssel közelebb jutott ehhez. Evin Levey termékmenedzser a cég hivatalos blogjában írta meg, hogy mostantól a kereső képes az internetre feltöltött szkennelt dokumentumokban is keresni. Mindezt úgy - és ez sokat elmond a Google rendelkezésére álló számítógépes erőforrásokról -, hogy ráeresztenek egy karakterfelismerő (OCR) programot minden olyan, Adobe PDF formátumba mentett szkennelt képre, amelybe a keresőrobotok belefutnak.

Korábban az ilyen, képet tartalmazó dokumentumokban a Google nem tudott keresni, jobb esetben a cím alapján indexelte és ezt figyelembe véve a találtok között megjelenítette a fájlt, de nem ez volt a jellemző. Mostantól viszont tud. Persze az optikai karakterfelismerésnek vannak jól ismert korlátai, így a digitalizált szöveg aligha lesz százszázalékos pontosságú, de mivel a vállalatnak a könyvtárdigitalizálási projekteknek köszönhetően hatalmas tapasztalata van e területen, bízhatunk a a dokumentumok használhatóságában.

A szkennelt PDF-ek szöveges tartalmát - akárcsak a hagyományos PDF-dokumentumokét - a "View as HTML" (a magyar oldalon "HTML-változat") linkre kattintva lehet megnézni.

Várjuk Olvasóink véleményét a Fórumba!

Forrás:
IT Cafe

Figyelem! A tartalom legalább 2 éve nem frissült! Előfordulhat, hogy a képek nem megfelelően jelennek meg.