OCR de código aberto [fechado]
Estou à procura de uma biblioteca OCR de código aberto que funciona no Linux. Preciso que isto funcione para PNGs e PDFs. Principalmente eu gostaria de interface esta biblioteca de java ou ruby. Alguma ideia se há alguma coisa disponível?
cumprimentos.
15
3 answers
Tesseract é um motor de OCR muito bom: https://github.com/tesseract-ocr/tesseract
O projeto foi lançado pelos laboratórios HP e agora é continuado e patrocinado pelo Google (para o Google Books !). É lançado sob a licença Apache, e é executado em Linux. Ele usa arquivos TIFF ou PNGs; para PDFs, você precisará converter para um desses formatos. Eu suponho que não há nenhuma ligação assim que você deve invocar este software como um subprograma... 12
Author: olivierlemasle, 2015-12-03 20:10:01
Cuneiforme é livre e faz um trabalho decente. Podia invocá-lo como subprograma, mas não há nenhuma ligação linguística que eu saiba. Ele não lê PDFs diretamente, mas você pode facilmente desmontar PDFs que são sequências de imagens digitalizadas para alimentá-los a Cuneiforme. Há também scripts para remontar as imagens e o texto de volta em um PDF pesquisável.
1
Author: Ben Jackson, 2011-03-01 08:04:19