Presentación

Download Report

Transcript Presentación

Proyecto GNU
Utilería para digitalizar, generar OCR y
crear archivos PDF de código abierto
Luis René Salas López
[email protected]
Coordinación de Automatización
Bibliotecaria
Xalapa
Primer Foro Universitario de Software Libre
3, 4, y 5 de Junio de 2013
FreeBSD
Linux
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Reconocimiento Óptico de Caracteres
OCR
Los despido a todos.
_Estoy muy cansado… Quiero dormirme.
_¿No vas a merendar?
_No. Tengo mucho sueño...
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Tesseract-OCR
• Desarrollado por HP entre 1985 y 1994.
• Nunca se usó en un producto HP.
• Código liberado en 2005 y adoptado por
Google.
• Altamente portable
• Reconoce más de 60 lenguajes.
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Creación del documento
• Cuando se realiza el proceso de OCR sobre una
imagen, podemos obtener un archivo con
ubicación espacial del texto: hocr
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Creación del documento
• hOcr2Pdf.NET
Es una librería para convertir .hocr html
producidos por el motor Tessract-OCR o
Cuneiform en pdf buscable. Liberado bajo
licencia GNU General Public License version 2
(GPLv2).
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Creación del documento
• iTextSharp
Es una librería compatible con C# de iText
para java de código abierto para la creación y
manipulación de archivos PDF. Liberado bajo
licencia Affero GNU Public License.
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Creación del documento
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Creación del PDF
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Capacidad de búsqueda
Primer Foro Universitario de Software Libre
3, 4 y 5 de Junio de 2013
Referencias
• “hOcr2Pdf.NET”, consultada por Internet el 29 de
Abril del 2013. Dirección de Internet:
https://hocrtopdf.codeplex.com/
• “iTextSharp”, consultada por Internet el 29 de
Abril del 2013. Dirección de Internet:
http://sourceforge.net/projects/itextsharp/
• “Tesseract-OCR”, consultada por Internet el 29 de
Abril del 2013. Dirección de Internet:
https://code.google.com/p/tesseract-ocr/