nov
08
2008
Ahora Google también hace OCR a los PDFs
Esto se traduce en un beneficio evidente para los usuarios de Google: poder acceder a multitud de documentos que, hasta ahora, eran muy difíciles de encontrar porque el motor de búsqueda sólo sabía de ellos lo que le indicaban los vínculos que había hacia ellos y poco más. Pero, además, creo que Google tiene, de manera accesoria, un nuevo servicio que ofrecer a sus usuarios: la posibilidad de hacer OCR bajo demanda de los documentos que necesitemos interpretar. Este servicio podría ofrecerse de forma independiente o integrado en otros como GMail o Google Docs. La tecnología OCR tuvo una época de crecimiento y mejora a finales de los noventa y principios de esta década pero, tras eso, podríamos decir que está relativamente estancada. Los mejores motores de OCR, que no se limitan a la mera interpretación de la imagen analizada sino que se apoyan también en decisiones probabilísticas, diccionarios, etc., no llegan aún a un 100% de precisión, ni siquiera en condiciones ideales. Este movimiento de Google tiene, por tanto, otra perspectiva interesante: Google va a someter a su motor de OCR a una batería de pruebas de tamaño inmenso, formada por todos los PDFs de ese tipo que encuentre en Internet. Si lo manejan bien, eso les va a permitir afinar, mejorar y optimizar su motor de OCR hasta niveles nunca imaginados hasta la fecha, así que quién sabe si no estamos ante el nacimiento del “motor de OCR definitivo”. Haga un comentarioLa mayor parte de los comentarios deben ser aprobados por Manuel Delgado (o sea, yo) para que aparezcan aquí publicados. En función de lo ocupado que esté, esa aprobación puede ocurrir entre 5 minutos y 5 días desde que escribas tu comentario, así que sé paciente, por favor.
|
Últimos artículosNube de etiquetasapple blogs burocracia cambio canon digital CDL Centro Democrático Liberal chapuzas conferencias crisis datos personales derechos derechos de autor economía elecciones El País empresas España Estados Unidos Evaluaciones gestión del conocimiento gestión de proyectos gestión documental Gestión empresarial Google humor impuestos Informática información innovación Internet justicia leyes liberalismo libertad Libros literatura Música Manuel Delgado metodologías Microsoft negocios Oracle Oracle UCM Partido Popular periodismo Política pp privacidad PSOE seguridad SGAE software tecnología teléfonos móviles televisión terrorismo viajes Web 2.0 zapatero Recomendaciones al azarHistórico de artículosVínculos recomendadosAnclaos | Antonio Andújar | Antonio España | Centro Democrático Liberal | Desde el Exilio | Desde la Concha | Doce Doce | El blog de Luis Margol | El Joven Centrista | In partibus infidelium | Javier Capitán | Lumen Dei | Malaprensa | Mensa España | Ningunterra | Proyecto Seléucida | Schneier on Security | Siracusa 2.0 | Sobre la Línea | Spanish Pundit | The Dilbert Blog | Wonkapistas | Fuentes compartidas en Google Reader
|
RSS Artículos

