Ir para conteúdo

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

alexjose123

Solr, indexar arquivos .pdf ou .doc ou .txt ?

Recommended Posts

senhores como é possível indexar arquivos com extensão .pdf ou .doc ou .txt para depois realizar uma pesquisa no navegador?

Compartilhar este post


Link para o post
Compartilhar em outros sites

Primeiro você precisa criar mecanismos para extração de texto do arquivo para depois indexar o texto. Existem APIs que fazem isso pra você. De cabeça, só consigo me lembrar da PDFBox da Apache. Que entre outras coisas extrai texto de documentos PDF. Dá uma pesquisada no Google ou mesmo no sítio da apache foundation que você vai achar bastante coisa.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Caríssimo, como faço isso?

Há algum passo-a-passo

básico para construção deste

sistema ?

 

 

Primeiro você precisa criar mecanismos para extração de texto do arquivo para depois indexar o texto. Existem APIs que fazem isso pra você. De cabeça, só consigo me lembrar da PDFBox da Apache. Que entre outras coisas extrai texto de documentos PDF. Dá uma pesquisada no Google ou mesmo no sítio da apache foundation que você vai achar bastante coisa.

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.