Ir para conteúdo
Spybr

Consulta palavra dentro de vários arquivos em PDF

Recommended Posts

Tenho em um sistema com um acervo de documentos em PDF onde os usuários podem pesquisar pelo título dos documentos cadastrados. Gostaria de implementar um modo de busca avançada que pesquisasse dentro dos documentos pdf. Existe alguma biblioteca para fazer isso em PHP? Um alternativa que pensei para tornar a busca mais rápida seria extrair todo o texto dos arquivos PDF para uma tabela no banco de dados e usar as proprias funções de busca do banco de dados. 

 

Alguem ja implementou algo do tipo poderia dar alguma dica?

Compartilhar este post


Link para o post
Compartilhar em outros sites

Não existe, leitura em arquivos sempre será lenta.

 

Se voce precisar fazer, existem duas maneiras:

1. É converter o arquivo para TXT e pesquisar no texto (ex: https://www.pdfparser.org/)

2. É jogar o conteudo do PDF em uma DB usando DB proprias pra isso (ex: https://lucene.apache.org/)

 

Referencia: https://en.wikipedia.org/wiki/Full-text_search

Compartilhar este post


Link para o post
Compartilhar em outros sites
Em 02/04/2020 at 15:14, ExtremsX disse:

Não existe, leitura em arquivos sempre será lenta.

 

Se voce precisar fazer, existem duas maneiras:

1. É converter o arquivo para TXT e pesquisar no texto (ex: https://www.pdfparser.org/)

2. É jogar o conteudo do PDF em uma DB usando DB proprias pra isso (ex: https://lucene.apache.org/)

 

Referencia: https://en.wikipedia.org/wiki/Full-text_search

Obrigado irei verificar.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Crie uma conta ou entre para comentar

Você precisar ser um membro para fazer um comentário

Criar uma conta

Crie uma nova conta em nossa comunidade. É fácil!

Crie uma nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar Agora

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.