Tesseract-OCR

Es un motor de Reconocimiento Óptico de Caracteres (OCR) que está disponible para múltiples sistemas operativos.  En éste motor de OCR se basan múltiples programas, que son los que realmente proporcionarán una interfaz al usuario para sacar partido a Tesseract-OCR.  Por tanto conviene tener claro que si sólo se instalara el motor Tesseract-OCR sólo se podría interactuar con él a base de instrucciones que se deberían escribir desde la línea de comandos de una consola.  Para consultar algunos programas que proporcionen esta interfaz gráfica al usuario consulta la sección de Enlaces de éste mismo artículo.

Autores:  Inicialmente, entre 1985 y 1995, el desarrollador fue HP.  En 2005 se licenció como software de código abierto y libre distribución.  A partir de 2006 pasó a ser un desarrollo mantenido y financiado por Google y su comunidad de desarrolladores y colaboradores.

Idioma:  Dispone de múltiples diccionarios de idiomas, entre ellos el Catalán y el Español.

Licencia:  Es de código abierto y libre distribución.

Requisitos:  Es compatible con equipos que dispongan de Sistema Operativo Windows, Mac, Linux y otros.

Accesibilidad:  La accesibilidad realmente dependerá más de la interfaz de usuario que tenga el programa que se utilice para manejar éste motor de OCR.

Instalación y configuración:

En Windows.

  • Acceder a la Web oficial para descargar los componentes de Tesseract-OCR.
  • En la Web oficial para descargar Tesseract-OCR localizar y descargar el instalador del programa, será similar a «tesseract-ocr-setup-3.02.02.exe«.
  • Si en el equipo donde se realizará la instalación no se dispone de acceso a Internet también se debe descargar la traducción al español, será similar a «tesseract-ocr-3.02.spa.tar.gz«
  • Una vez descargado el instalador de Tesseract-OCR se ejecuta y se siguen todos los pasos que va mostrando el asistente de instalación.
  • Si en el equipo se dispone de acceso a Internet se podrán instalar los idiomas sin realizar su descarga previa, para ello hay que prestar especial atención a la estructura en forma de árbol dentro de la cual se deben desplegar los elementos de la rama «Language data» y seleccionar «Download and install spanish language data».
  • Si en el equipo no se dispone de acceso a Internet, después de instalar el programa en inglés, hay que extraer el contenido del archivo comprimido con la traducción al español y los archivos de carpeta «tessdata» hay que copiarlos en «C:\Archivos de Programa\Tesseract-OCR\tessdata».

Enlaces.

Fuentes.

Este artículo también ha sido posible gracias a la información aportada por CDLibre.org.