OCR de código aberto [fechado]

Estou à procura de uma biblioteca OCR de código aberto que funciona no Linux. Preciso que isto funcione para PNGs e PDFs. Principalmente eu gostaria de interface esta biblioteca de java ou ruby. Alguma ideia se há alguma coisa disponível?

cumprimentos.

Author: Chris, 2011-03-01

3 answers

Tesseract é um motor de OCR muito bom: https://github.com/tesseract-ocr/tesseract

O projeto foi lançado pelos laboratórios HP e agora é continuado e patrocinado pelo Google (para o Google Books !). É lançado sob a licença Apache, e é executado em Linux. Ele usa arquivos TIFF ou PNGs; para PDFs, você precisará converter para um desses formatos. Eu suponho que não há nenhuma ligação assim que você deve invocar este software como um subprograma...
 12
Author: olivierlemasle, 2015-12-03 20:10:01

Cuneiforme é livre e faz um trabalho decente. Podia invocá-lo como subprograma, mas não há nenhuma ligação linguística que eu saiba. Ele não lê PDFs diretamente, mas você pode facilmente desmontar PDFs que são sequências de imagens digitalizadas para alimentá-los a Cuneiforme. Há também scripts para remontar as imagens e o texto de volta em um PDF pesquisável.

 1
Author: Ben Jackson, 2011-03-01 08:04:19

Tente tesjeract , que usa o JNI para chamar a API de Tesseract OCR.

Para PDF, você vai precisar convertê-los para a imagem em primeiro lugar, usando GhostScript, por exemplo.

 0
Author: nguyenq, 2011-05-15 00:27:29