Ir para conteúdo

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

klsofts

Armazenar todo conteúdo de texto de um site:

Recommended Posts

Fala pessoal,

recentemente concluí meu buscador mas quero melhorar a técnica de busca dele,

o seguinte código eu extraio todo texto da página inicial de um url:

$content = file_get_contents($siteurl);

$useful = strip_tags($content);

O que eu queria saber é como pegar o nome de todos os arquivos de um url e fazer o mesmo.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Agradeço a ajuda beraldo,

vejo que a maioria dos crawlers utiliza python, será que não existe uma maneira de visualizar os arquivos, tipo dir ou outro?

Compartilhar este post


Link para o post
Compartilhar em outros sites

É possível fazer isso com qualquer linguagem. Mas algumas possuem mais ferramentas que outras.

 

Existe o PHPCrawl. Nunca usei. Não sei dizer se é bom.

Mas você pode implementar o seu próprio, sem usar qualquer outra ferramenta. Basta navegar na árvore DOM e, sempre que encontrar uma tag a, incluí-la para fazer uma nova requisição. Apenas tome cuidado de salvar as URLs já visitadas, pra que seu crawler não entre em loop infinito

 

Python tem mais ferramentas pra isso, como o BeaultifulSoup ou o Scrappy. Se você precisa de uma boa ferramenta pra isso, considere usar outra linguagem também. Pode ser uma saída melhor

Compartilhar este post


Link para o post
Compartilhar em outros sites

Obrigado pela ajuda, vou estar estudando python já que nunca programei nessa língua e caso eu consiga criar um crawler eu posto aqui no fórum para auxiliar quem também necessitar.

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.