OCR de código aberto [fechado]

Question

OCR de código aberto [fechado]

Estou à procura de uma biblioteca OCR de código aberto que funciona no Linux. Preciso que isto funcione para PNGs e PDFs. Principalmente eu gostaria de interface esta biblioteca de java ou ruby. Alguma ideia se há alguma coisa disponível?

cumprimentos.

15

java linux ruby pdf ocr

Author: Chris, 2011-03-01

Source

3 answers

score 12 · Answer 1

Tesseract é um motor de OCR muito bom: https://github.com/tesseract-ocr/tesseract

O projeto foi lançado pelos laboratórios HP e agora é continuado e patrocinado pelo Google (para o Google Books !). É lançado sob a licença Apache, e é executado em Linux. Ele usa arquivos TIFF ou PNGs; para PDFs, você precisará converter para um desses formatos. Eu suponho que não há nenhuma ligação assim que você deve invocar este software como um subprograma...

score 1 · Answer 2

Cuneiforme é livre e faz um trabalho decente. Podia invocá-lo como subprograma, mas não há nenhuma ligação linguística que eu saiba. Ele não lê PDFs diretamente, mas você pode facilmente desmontar PDFs que são sequências de imagens digitalizadas para alimentá-los a Cuneiforme. Há também scripts para remontar as imagens e o texto de volta em um PDF pesquisável.

score 0 · Answer 3

Tente tesjeract , que usa o JNI para chamar a API de Tesseract OCR.

Para PDF, você vai precisar convertê-los para a imagem em primeiro lugar, usando GhostScript, por exemplo.