« »

Ahora Google también hace OCR a los PDFs

Original mecanografiado de On the Road de Kerouac, por Emdot, con licencia CC byHace unos días, Google anunció desde su blog oficial su capacidad para indexar archivos en formato PDF que no contengan texto legible sino que sean el resultado de escanear un documento, al aplicarles un proceso de OCR. Explicación rápida para quienes no sepan en qué radica la diferencia: cuando generas un PDF desde, por ejemplo, Microsoft Word, el texto en ese archivo PDF es accesible porque, al fin y al cabo, sigue siendo texto; cuando generas un PDF escaneando un documento el texto es legible por un ser humano pero, en realidad, lo que hay en el PDF es una imagen, equivalente a si hubieras insertado una foto del documento en el archivo. El proceso de OCR interpreta los trazos de la imagen e identifica el texto que había en el documento original, permitiendo a Google indexar el contenido de ese documento como si fuera texto normal.

Esto se traduce en un beneficio evidente para los usuarios de Google: poder acceder a multitud de documentos que, hasta ahora, eran muy difíciles de encontrar porque el motor de búsqueda sólo sabía de ellos lo que le indicaban los vínculos que había hacia ellos y poco más. Pero, además, creo que Google tiene, de manera accesoria, un nuevo servicio que ofrecer a sus usuarios: la posibilidad de hacer OCR bajo demanda de los documentos que necesitemos interpretar. Este servicio podría ofrecerse de forma independiente o integrado en otros como GMail o Google Docs.

La tecnología OCR tuvo una época de crecimiento y mejora a finales de los noventa y principios de esta década pero, tras eso, podríamos decir que está relativamente estancada. Los mejores motores de OCR, que no se limitan a la mera interpretación de la imagen analizada sino que se apoyan también en decisiones probabilísticas, diccionarios, etc., no llegan aún a un 100% de precisión, ni siquiera en condiciones ideales. Este movimiento de Google tiene, por tanto, otra perspectiva interesante: Google va a someter a su motor de OCR a una batería de pruebas de tamaño inmenso, formada por todos los PDFs de ese tipo que encuentre en Internet. Si lo manejan bien, eso les va a permitir afinar, mejorar y optimizar su motor de OCR hasta niveles nunca imaginados hasta la fecha, así que quién sabe si no estamos ante el nacimiento del “motor de OCR definitivo”.


Safe Creative #0811231644297

Post to Twitter Post to Facebook

Haga un comentario

La mayor parte de los comentarios deben ser aprobados por Manuel Delgado (o sea, yo) para que aparezcan aquí publicados. En función de lo ocupado que esté, esa aprobación puede ocurrir entre 5 minutos y 5 días desde que escribas tu comentario, así que sé paciente, por favor.

« »