sobre Web crawler

F-XP · Outubro 23, 2007

Por favor, tenho dúvidas em relação a esse tipo.Como é que a web crawler descobre quais são as páginas mais acessadas na rede ?Também como descobre quais são as páginas não indexadas ?Como que é feito o processo quando uma página da rede atravessa pra próxima página ? Ou seja, como que reconhece ?E há alguma implementação feita de programação em C sobre web crawler. Se puderem me ajudar o quanto antes eu agradeço.

John McLane · Novembro 3, 2007

Webcrawler é um termo genérico pra bots que varrem a internet. Como por exemplo, o do google.

Eu sei que o alexa faz isso tudo usando spywares. É bem politicamente incorreto mesmo. Ele se instala junto com algum programa parceiro (como a barrinha do megaupload, o alexatoolbar etc) e vai reportando os sites visitados pra fazer seu pagerank.

O webcrawler do google, chamado de googlebot, sai varrendo a internet mesmo. Entra num site e clica em todos os seus links (seguindo orientacoes do webmaster, caso haja alguma) e sai indexando e formando seu cache. Ele considera mais importantes os sites mais linkados por outros sites.

você deve ta se referindo ao webcrawler.com, é? Se for, eu nao conheco o site mas ele deve fazer no mesmo esquema do alexa. Tem um webcrawler toolbar pra download no site deles

Ah! E quanto a implementacao, tenho nem ideia. Acho mais facil voce achar algo em php que use o pagerank do google e ou até o alexa (que sao mais famosos) no www.hotscripts.com . Depois tenta passar pra C, se realmente for necessario ser em C.

Entrar

Arquivado

sobre Web crawler

Recommended Posts

F-XP 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

John McLane 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Consulta sem duplicação

Modelagem para questionário

Converter jpg para webp

Este projeto é apoiado pelas empresas

Fóruns

Tempo Real

Informação importante