Leitura em um documento PDF
Estou perdido sobre questões de OCR, e gostaria de uma dica de uma pessoa mais experiente.
Eu tenho um documento PDF em 300 dpi e que foi digitalizado em OCR.
1- Consigo ler o texto deste PDF com o PHP ? Preciso instalar algo a mais no servidor ou apenas utilizando o PHP já consigo fazer a consulta ?
2- Documentos PDF que não são digitalizados em OCR é possivel com o PHP converter o documento para OCR e pesquisar os texto depois ?
3- Serão vários documentos disponibilizados na web para possiveis consultas, devo buscar o texto no documento PDF fazendo uma varredura arquivo por arquivo ou deve extrair os textos dos documentos e fazer a consulta a partir da base de dados.
Existem varios sites que fazem consultas de documentos e fico impressionado com a velocidade da consulta devido a quantidade de arquivos existentes, não sei se é feita pela base de dados ou via arquivo.
Também não sei o tipo de configuração minima que preciso ter em um servidor para este tipo de projeto.
Discussão (0)
Carregando comentários...