Funcionamento de um "ROBO"

fitinge · Janeiro 22, 2007

Boa tarde galera,procurei aqui pelo forum sobre o funcionamento de um "robo", mas os tópico que achei não era sobre o funcionamento, a galera queria só o negócio pronto.Por curiosidade comecei a tentar imaginar como fazer um "robo", desses de buscar coisas em sites, como o buscape.com.br ou bondfaro.com.brA unica maneira que pensei em fazer seria efetuando parses no fonte da pagina principal até achar um link de um produto, achando esse link, abre o fonte desse link, e procura por mais links de produtos, e assim vai indo...Em cada link de produto que encontra é filtrado as informações relevantes, como descrição, valor, foto, etc. E depois continua a execução.Será que funciona assim esses sites de busca?Ou será que os sites disponibilizam um arquivo tipo xml pra esses robos já pegarem tudo pronto???Alguem tem idéia do funcionamento? Não pretendo aqui ter o script pra fazer isso, apenas a idéia de como fazer esse robo.

Fila · Janeiro 22, 2007

Se não me engano, sites de busca como google fazem rastreamento de sites usando o META TAG que estes sites possúem.Fazer uma busca de um produto específico dentro de um site já requer um trampo violento e acho que é bastante dificil de ser realizado uma vez que o sistema terá que saber como identificar um link de áreas internas ou um link de um produto por exemplo.Talvez você poderia gravar todos os links de um determinado site e posteriormente fazer a filtragem manual... é trabalhoso, mas você teria exatamente o que quer.

Alisson Rodrigues · Janeiro 23, 2007

A lógica é bastante simples. você primeiro tem que pensar, os links seguem algum padrão? Como é organizada as coisas que você quer pegar?

Usamos o caso do submarino. Primeira coisa, você precisa descobrir a url do produto, pra isso use a busca do submarino. Você vai pegar a url usando funções de leitura de arquivos, pode ser até mesmo o file_get_contents (caso seja um form usando método post será necessário usar curl), pegue a url da busca: http://www.submarino.com.br/HomeCache/AllS...x?Query=produto. A partir dos resultados dessa página você pega o link do produto que você quer com uma função como preg_match ou preg_match_all pra mais de um link. Tendo este link basta você abri-lo com file_get_contents novamente e então é só pegar o preço (denovo com preg_match).

fitinge · Janeiro 23, 2007

Rapaziada, tentem prestar atenção nas perguntas!!! Eu não pedi como fazer, códigos, funções, etc. Eu perguntei o FUNCIONAMENTO.Mas pelo que vi, todos acham o mesmo que eu, é passado um site e apartir desse site ele busca por links de produtos e cada link de produto faz o parse no fonte para pegar as descrições...Desenvolver o código é um tanto quanto simples, o problema é o tempo que vai demorar um parse desse... E a quantidade de trafego que isso ira gerar no site.Provavelmente o webmaster verificando o intenso trafego ira bloquear aquele "robo".Sobre fazer parse nos fontes faz anos que utilizo, pegar cotaçõa de dolar, temperatura dos sites, sempre fiz isso... =)E fora um sisteminha que criei em flex pra consulta de preços do PY, onde alguns produtos são linkados com o site da newegg, pegando foto e descrição do produto: www.fitinge.com.br/py

Entrar

Arquivado

Funcionamento de um "ROBO"

Recommended Posts

fitinge 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Fila 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Alisson Rodrigues 3

Compartilhar este post

Link para o post

Compartilhar em outros sites

fitinge 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Fixar div até atingir uma certa altura

Ajuda com Extends e envio para o banco

PHP+Codeginiter - Orientação para Impressão

Este projeto é apoiado pelas empresas

Fóruns

Tempo Real

Informação importante