Como extrair texto de um PDF? [fechado]
alguém pode recomendar uma biblioteca / API para extrair o texto e as imagens de um PDF?
Precisamos ser capazes de obte ... ras pessoas e sugestao.
Existem alternativas (comerciais ou gratuitas) para extrair texto de um pdf programaticamente?
Converter pdf digitalizado para python text
Tenho um ficheiro pdf digitalizado e tento extrair texto dele.
Eu tentei usar o pypdfocr para fazer ocr nele, mas eu ten ...
for file in files:
print file
shutil.copyfile(file, "PATH" + os.path.basename(file))
os.remove(file)
Como posso extrair tipos de letra incorporados de um PDF como ficheiros de tipos de letra válidos?
Estou ciente do utilitário {[[0]} que pode indicar quais fontes são usadas por um PDF, e se eles estão ... referência livres) ferramentas que possam fazer isso? Também: isto pode ser feito programaticamente com, digamos, iText?