Ir para conteúdo
elima

Um Web Crawler busca o que tá na WWW mesmo ou que está indexado em um

Recommended Posts

Estou pensando em desenvolver um trabalho sobre ferramentas de pesquisa. Confesso que sou iniciante e pouco sei sobre programação, mas sei que aqui terei as respostas que preciso pra este trabalho. Pesquisei sobre crawlers, web crawlers, bots e afins e muito se fala que eles "varrem" a World Wide Web atrás dos resultados para exibir, mas, confesso, que custo a acreditar porque me pergunto como eles fazem a indexação dos sites na internet? De forma automatizada? Por isso a pergunta acima. Agradeço a quem dispor de tempo pra me responder, valeu!

Compartilhar este post


Link para o post
Compartilhar em outros sites

Na verdade eles não "Varrem", eles "perfuram", por isso são chamados crawlers. Um crawler basicamente toma por padrão um ponto inicial (pode ser qualquer site conhecido), lê essa página e segue os links que essa página possui para fora, por exemplo:

- O Site uol.com.br tem um link para jogos.uol.com.br

E assim infinitamente, a cada iteração dessa um novo crawler é criado (em uma das implementações, existem outros meios) e segue os links daquele site em diante multiplicando geometricamente e seguindo os links de página em página.

Quanto mais crawlers se tem, mais rápido e mais sites se indexam.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Crie uma conta ou entre para comentar

Você precisar ser um membro para fazer um comentário

Criar uma conta

Crie uma nova conta em nossa comunidade. É fácil!

Crie uma nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar Agora

  • Conteúdo Similar

    • Por rlemos
      Bom dia.
       
      Criei recentemente um site e já se encontra on-line. No entanto, sempre que faço pesquisa, ele não aparece. Preciso mesmo de ajuda!!!! Alguém?! O site é www.etransfer.com.pt
      Obrigada pela atenção.
    • Por JoãoNeto2
      Pessoal,
       
      Preciso automatizar um processo para pegar informações de alguns determinados sites.  Já vi vários exemplos de utilização de curl.
       
      Percebi que quando o site tem suas tags fixas funciona direito.  Mas quando preciso pegar algo variável parece que não consigo.
       
      Por exemplo, essa URL (https://startupbase.abstartups.com.br/startup/4000) contém o nome de uma Startup, cidade e outras informações.
       
      Não consigo pegar essa informação. Alguma dica?
       
      Abraço
    • Por BelleFisio
      Bom dia!
       
      Seria possível impedir que o google e outros buscadores, indexem as imagens do meu site em suas pesquisas?
       
      Já tentei  as indicações do próprio Google,  porém, ainda aparecem as imagens na pesquisa por imagens:
      User-agent: Googlebot-Image
      Disallow: /
      Disallow: /*.jpg$
      Disallow: /*.gif$
      Disallow: /imagem
       
      Obrigada
    • Por Misael Silva
      Olá, membros do fórum, tenho uma duvida a sanar que é sobre como inserir meu website a buscadores, como exemplo o próprio google, ao inserir o nome do meu site na barra de pesquisa ira aparecer nos resultados da pagina. Como posso proceder? (Espero que eu tenha criado esse tópico na área certa rs...)

    • Por Misael Silva
      Olá, membros do fórum, tenho uma duvida a sanar que é sobre como inserir meu website a buscadores, como exemplo o próprio google, ao inserir o nome do meu site na barra de pesquisa ira aparecer nos resultados da pagina. Como posso proceder? (Espero que eu tenha criado esse tópico na área certa rs...)

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.