Sistema de lectura automática de formularios manuscritos

Se trabaja en el desarrollo de un sistema de lectura automática de formularios manuscritos, orientado principalmente a la toma de datos obtenidos en encuestas para facilitar su posterior tratamiento. Los sistemas de reconocimiento de caracteres a partir de imágenes se conocen en la literatura técnica como “Optical Character Recognition” (OCR). En este caso, dado que se trata de caracteres manuscritos y que se reforzará su comportamiento mediante el uso de información contextual, su denominación cambia a Intelligent Character Recognition (ICR).

 

En un proceso típico de recolección de datos para encuestas, los encuestadores completan manualmente los formularios con los resultados de las consultas realizadas al encuestado. Posteriormente, en el centro de procesamiento, se obtiene un archivo con la imagen de cada formulario mediante un escáner.
Un sistema completo realiza los siguientes pasos:

 

  1. Preprocesamiento de la imagen del formulario,
  2. segmentación de cada carácter,
  3. identificación del mismo utilizando redes neuronales; generación de archivo intermedio de texto con los resultados obtenidos,
  4. utilización de información contextual, gramática y de diccionarios específicos para mejorar la eficiencia de la identificación,
  5. posible intervención del operador si la identificación no es satisfactoria (debe tratar de evitarse),
  6. Generación de un archivo con la información buscada.

 

El objetivo de este proyecto es diseñar e implementar un sistema que cumpla con las primeras tres (3) etapas  del proceso de extracción automática de información contenida en formularios de encuesta que se procesan en la facultad.

En un sistema como el descrito, se busca la mayor eficiencia con la menor cantidad de intervenciones del operador. La segmentación y la identificación dependen fuertemente de la forma de escribir de los encuestadores. Para lograrlo se estipulan una serie de restricciones, entre ellas: escribir dentro de los campos del formulario y con mayúsculas.

En una etapa posterior se completarán los tres últimos puntos.