Armazenar todo conteúdo de texto de um site:

klsofts · Agosto 7, 2015

Fala pessoal,

recentemente concluí meu buscador mas quero melhorar a técnica de busca dele,

o seguinte código eu extraio todo texto da página inicial de um url:

$content = file_get_contents($siteurl);

$useful = strip_tags($content);

O que eu queria saber é como pegar o nome de todos os arquivos de um url e fazer o mesmo.

Beraldo · Agosto 7, 2015

Você quer navegar pelos links?

Se for isso, pesquise sobre Crawler ou Spider

klsofts · Agosto 7, 2015

Agradeço a ajuda beraldo,

vejo que a maioria dos crawlers utiliza python, será que não existe uma maneira de visualizar os arquivos, tipo dir ou outro?

Beraldo · Agosto 8, 2015

É possível fazer isso com qualquer linguagem. Mas algumas possuem mais ferramentas que outras.

Existe o PHPCrawl. Nunca usei. Não sei dizer se é bom.

Mas você pode implementar o seu próprio, sem usar qualquer outra ferramenta. Basta navegar na árvore DOM e, sempre que encontrar uma tag a, incluí-la para fazer uma nova requisição. Apenas tome cuidado de salvar as URLs já visitadas, pra que seu crawler não entre em loop infinito

Python tem mais ferramentas pra isso, como o BeaultifulSoup ou o Scrappy. Se você precisa de uma boa ferramenta pra isso, considere usar outra linguagem também. Pode ser uma saída melhor

klsofts · Agosto 8, 2015

Obrigado pela ajuda, vou estar estudando python já que nunca programei nessa língua e caso eu consiga criar um crawler eu posto aqui no fórum para auxiliar quem também necessitar.

Entrar

Arquivado

Armazenar todo conteúdo de texto de um site:

Recommended Posts

klsofts 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Beraldo 864

Compartilhar este post

Link para o post

Compartilhar em outros sites

klsofts 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Beraldo 864

Compartilhar este post

Link para o post

Compartilhar em outros sites

klsofts 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Fixar div até atingir uma certa altura

Ajuda com Extends e envio para o banco

PHP+Codeginiter - Orientação para Impressão

Este projeto é apoiado pelas empresas

Fóruns

Tempo Real

Informação importante