web crawler Um Web Crawler busca o que tá na WWW mesmo ou que está indexado em um

elima · Novembro 3, 2016

Estou pensando em desenvolver um trabalho sobre ferramentas de pesquisa. Confesso que sou iniciante e pouco sei sobre programação, mas sei que aqui terei as respostas que preciso pra este trabalho. Pesquisei sobre crawlers, web crawlers, bots e afins e muito se fala que eles "varrem" a World Wide Web atrás dos resultados para exibir, mas, confesso, que custo a acreditar porque me pergunto como eles fazem a indexação dos sites na internet? De forma automatizada? Por isso a pergunta acima. Agradeço a quem dispor de tempo pra me responder, valeu!

KhaosDoctor · Novembro 10, 2016

Na verdade eles não "Varrem", eles "perfuram", por isso são chamados crawlers. Um crawler basicamente toma por padrão um ponto inicial (pode ser qualquer site conhecido), lê essa página e segue os links que essa página possui para fora, por exemplo:

- O Site uol.com.br tem um link para jogos.uol.com.br

E assim infinitamente, a cada iteração dessa um novo crawler é criado (em uma das implementações, existem outros meios) e segue os links daquele site em diante multiplicando geometricamente e seguindo os links de página em página.

Quanto mais crawlers se tem, mais rápido e mais sites se indexam.