Ir para conteúdo

POWERED BY:

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

Alex_ps

Varrendo a Web

Recommended Posts

Senhores,Alguém saberia informar algum tutorial, ou script, ou caminho para que eu possa conhecer um pouco mais sobre estas "coisas", scripts ou sei lá como chamam, os tais spiders ou outras ferramentas, para tornar um site de busca inteligente, auto sustentável?No momento em que estou implantando um site de busca em minha página e perdendo o maior tempo para adicionar um link atrás do outro manualmente, fico sabendo que sistemas inteligentes como o Google, varrem a Web de ponta a ponta a cada em um período de 4 semanas.Obrigado!Alex

Compartilhar este post


Link para o post
Compartilhar em outros sites

você vai ter um trabalhão, ter que ter um ótimo server que caiba todas as informações, e muito estudo.Primeiro que eles usam um programa pra isso. Googlebot que varre a web e gerencia as informações, eu li que esse programa tem umas 2.000 variaveis, deu pra sacar que não é brincadeira.Mas a lógica dele parece ser relativamente fácil.Você da vários endereços aos programas, ele entra nas paginas, analiza o html e salva todas as URL's copiando também o conteúdo da pagina, o googlebot salva também as imagens e as metatags, mas você pode pegar só o texto que irá ocupar menos espaço.Agora... imagina o tanto de paginas que existem na web, tem um número la no google, pensa só a demora que vai ser pro sistema retornar o resultado do usuário. Essa já é outra lógica, que não é muito fácil.Da pra fazer isso com o ASP, eu pensei em usar o xmlhttp.Mas aja banco de dados.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Alex,Obrigado por sua resposta.Imagino que o trabalho seja realmente insano, porém, imagine o custo benefício que ele traz.No caso de sistemas de busca que precisam ser atualizados constantemente, tais como o Google e o Buscapé, esta forma de busca é no mínimo imprescindível.Bem, a idéia que eu queria ter era de como eles com um simples clique, saem do ponto zero e começavam a percorrer um trajeto.Diferente de buscar dentro de um site de busca (tenho um software que faz isto ao ser conectado na web, depois é só exportar as infos), onde você determina o endereço, no caso não há endereço, ou se há como ele faz para varrer o primeiro html e encontrar o 1 URL, e daí como ele faz para cadastrar este URL e em seguida varrê-lo.Existem softwares que buscam imagens, outros buscam música, etc. Como eles fazem para varrer a web?No caso não quero saber os critérios de catalogação, ordem, nada disso.Queria entender como é feita a automatização do processo.Valeu!Alex_ps

Compartilhar este post


Link para o post
Compartilhar em outros sites

Se fosse usar ASP para isso, usaria XMLHTTP com ele você pode coletar o resultado de uma página, por exemplo, você requisita a index do site do Imasters com ele e você poderá ter o conteúdo HTML dessa index. Com isso você busca todas as ocorrências de Links, <a href=> e armazena, para passar esse link para um outro robo, que irá repetir o processo. Mas isso sempre parte de, pelo menos, um endereço pré-informado ao Robo.

 

Falou, Xarás?

 

E Penna, seu Feio, trocou o Nick pelo nome (esse sim é bonito) pusque rapaz?

Compartilhar este post


Link para o post
Compartilhar em outros sites

Se fosse usar ASP para isso, usaria XMLHTTP com ele você pode coletar o resultado de uma página, por exemplo, você requisita a index do site do Imasters com ele e você poderá ter o conteúdo HTML dessa index. Com isso você busca todas as ocorrências de Links, <a href=> e armazena, para passar esse link para um outro robo, que irá repetir o processo. Mas isso sempre parte de, pelo menos, um endereço pré-informado ao Robo.Falou, Xarás?E Penna, seu Feio, trocou o Nick pelo nome (esse sim é bonito) pusque rapaz?

Dai tio salgado. Perdi o libido pelo nick. Hehehhehe.Meu nome é mais bonito, mesmo ficando com penna de abandonar o nick.HehehehAbração xará

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.