8 de Noviembre de 2008 — Manuel Delgado
Hace unos dÃas, Google anunció desde su blog oficial su capacidad para indexar archivos en formato PDF que no contengan texto legible sino que sean el resultado de escanear un documento, al aplicarles un proceso de OCR. Explicación rápida para quienes no sepan en qué radica la diferencia: cuando generas un PDF desde, por ejemplo, Microsoft Word, el texto en ese archivo PDF es accesible porque, al fin y al cabo, sigue siendo texto; cuando generas un PDF escaneando un documento el texto es legible por un ser humano pero, en realidad, lo que hay en el PDF es una imagen, equivalente a si hubieras insertado una foto del documento en el archivo. El proceso de OCR interpreta los trazos de la imagen e identifica el texto que habÃa en el documento original, permitiendo a Google indexar el contenido de ese documento como si fuera texto normal. Leer el resto del artículo »