Usamos cookies para medir audiência e melhorar sua experiência. Você pode aceitar ou recusar a qualquer momento. Veja sobre o iMasters.
Fala pessoal,
recentemente concluí meu buscador mas quero melhorar a técnica de busca dele,
o seguinte código eu extraio todo texto da página inicial de um url:
$content = file_get_contents($siteurl);
$useful = strip_tags($content);
O que eu queria saber é como pegar o nome de todos os arquivos de um url e fazer o mesmo.
Agradeço a ajuda beraldo,
vejo que a maioria dos crawlers utiliza python, será que não existe uma maneira de visualizar os arquivos, tipo dir ou outro?
É possível fazer isso com qualquer linguagem. Mas algumas possuem mais ferramentas que outras.
Existe o PHPCrawl. Nunca usei. Não sei dizer se é bom.
Mas você pode implementar o seu próprio, sem usar qualquer outra ferramenta. Basta navegar na árvore DOM e, sempre que encontrar uma tag a, incluí-la para fazer uma nova requisição. Apenas tome cuidado de salvar as URLs já visitadas, pra que seu crawler não entre em loop infinito
Python tem mais ferramentas pra isso, como o BeaultifulSoup ou o Scrappy. Se você precisa de uma boa ferramenta pra isso, considere usar outra linguagem também. Pode ser uma saída melhor
Obrigado pela ajuda, vou estar estudando python já que nunca programei nessa língua e caso eu consiga criar um crawler eu posto aqui no fórum para auxiliar quem também necessitar.
Você quer navegar pelos links?
Se for isso, pesquise sobre Crawler ou Spider