Recomendações da biblioteca OCR Java? [duplicado]

[[2] esta pergunta já tem uma resposta aqui:

Preciso de verificar uma tonelada de imagens para ver se têm uma palavra-chave. Alguém pode recomendar uma boa e confiável biblioteca OCR? Sacrificarei a velocidade pela precisão.

 8
Author: Peck3277, 2013-07-23

2 answers

Não há bibliotecas OCR Java puras que tenham algo a ver com precisão. Dependendo do seu orçamento, você pode escolher algo que não é puramente Java, mas pode ser chamado a partir de Java:

  • Se tiver muito tempo, mas orçamento zero, a sua escolha é Tesseract. É definitivamente o melhor entre o open source
  • Se você tem um pequeno orçamento para gastar e você só precisa executar este reconhecimento uma vez - Cloud OCR API Serviço seria a sua melhor escolha. Baseia-se em motor OCR de qualidade comercial líder e oferece preços bastante acessíveis por projeto. Aviso: trabalho para ABBYY
  • No caso de você precisar executar este reconhecimento como processo contínuo para sempre, então você pode pensar que é economicamente mais eficiente comprar software de conversão dedicado, por exemplo Este, ele tem API e pode ser chamado a partir de Java também. Mas, na verdade, há muitas alternativas, se você estiver preparado para investir algum orçamento em licenciamento.
 20
Author: Tomato, 2017-05-23 12:02:46

Se você tem planos para reconhecer símbolos não latinos ou digitais, então melhor maneira de encontrar biblioteca não java, mas selecione de algumas ferramentas (externas) e use outras maneiras(1) para obter o seu texto. On Linux I have used cuneiform (2) via command line interface.

  1. Interface de linha de comando e pipe, por exemplo.

  2. Cuneiform tem portado em Linux, mas eu não sei sobre a interface de linha de comando de trabalho para Windows

 2
Author: Michael Kazarian, 2013-07-24 07:58:38