Crawler Web

Por Ivan.Teles, Agosto 8, 2017 em .NET

crawler

Recommended Posts

Ivan.Teles 23

Denunciar post

Postado Agosto 8, 2017

Boa tarde, alguém da área .net aqui tem conhecimento para criar um crawler?

Estou com um cliente com essa necessidade e preciso de um programador que tenha o devido conhecimento.

Compartilhar este post

Link para o post

Compartilhar em outros sites

Ir para a lista de tópicos .NET

- Não consigo carregar imagem do captcha no meu formulário
  
  Por Rafael_Ferreira, Maio 24 em PHP
- Estou criando uma calculadora de m2 e litros de tinta
  
  Por arfal, Março 3, 2021 em Python
- Cruzamento de Bases
  
  Por Morpheus#2005, Outubro 28 em SQL Server

Conteúdo Similar
- Ajuda Com Crawler PHP _ Mudança de páginas
  Por Machado_Dan
  
  Boa noite pessoal.
  Sou iniciante em PHP e estou tentando desenvolver um crawler em PHP para um projeto.
  Já consegui pegar as informações que preciso, porém o site que estou 'crawleando' só exibe 20 resultados por página. Dependendo de qual cidade é inserida no campo de busca, podemos ter X páginas para serem exibidas da 1ª a última.
  As páginas seguem o mesmo padrão com a númeração no final.
  Mas não estou tendo nenhuma ideia que funcione de como automatizar isso no crawler para que ele possa ler todas as páginas disponíveis.
  Alguem consegue me ajudar?
  
  Segue crawler:
  
  <?php require "vendor/autoload.php"; use GuzzleHttp\Client; use Sunra\PhpSimple\HtmlDomParser; $client = new Client([ 'headers' => [ 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36' ] ]); $URL = 'https://www.guiamais.com.br/encontre?searchbox=true&what=&where=S%C3%A3o+Paulo%2C+SP&page=1'; $html = $client->request("GET",$URL)->getBody(); $dom = HtmlDomParser::str_get_html($html); foreach ($dom->find('meta[itemprop=url]') as $Key => $link){ $urlEmpresa = $link->content; $html = $client->request("GET",$urlEmpresa)->getBody(); $domEmpresa = HtmlDomParser::str_get_html($html); $basicsInfo = $domEmpresa->find('div.basicsInfo',0); $extendedInfo = $domEmpresa->find('div.extendedInfo',0); $titulo = html_entity_decode($basicsInfo->find('h1',0)->plaintext); $categoria = html_entity_decode(trim($basicsInfo->find('p.category',0)->plaintext)); $endereco = preg_replace('/\s+/',' ',html_entity_decode(trim($extendedInfo->find('.advAddress',0)->plaintext))); $telefones = []; foreach($extendedInfo->find('li.detail') as $li){ $telefones[] = trim($li->plaintext); } echo $titulo.PHP_EOL.$categoria.PHP_EOL.$endereco.PHP_EOL; echo'<pre>'; print_r($telefones); echo'</pre>'; echo PHP_EOL.PHP_EOL.PHP_EOL; } ?>
  Agradeço muito a ajuda.
  
  Abraços.
- Pegar conteúdo dinâmico de um site
  Por JoãoNeto2
  
  Pessoal,
  
  Preciso automatizar um processo para pegar informações de alguns determinados sites. Já vi vários exemplos de utilização de curl.
  
  Percebi que quando o site tem suas tags fixas funciona direito. Mas quando preciso pegar algo variável parece que não consigo.
  
  Por exemplo, essa URL (https://startupbase.abstartups.com.br/startup/4000) contém o nome de uma Startup, cidade e outras informações.
  
  Não consigo pegar essa informação. Alguma dica?
  
  Abraço
- Ajuda - robô para ler conteúdo de página e informar
  Por rbcazare
  
  Seguinte, pessoal.
  
  O portal de notas da minha faculdade se apresenta conforme a imagem em anexo.
  
  Vejam que cada matéria possui 3 provas. Alguns professores cadastram as 3 de uma vez, e fica pendente só o valor da nota no final.
  Outros nem cadastram as provas.
  
  Eu precisava de um robô que varresse essa página e informasse toda vez que algum professor cadastrar uma nova nota.
  
  Tem como fazer isso?
- [RESOLVIDO] Crawler - Listagem de todas as URLS
  Por gabrieldarezzo
  
  Salve galera.
  
  Alguem sabe uma maneira de listar todas as urls de um site:
  
  Ex: se no google eu utilizar a técnica:
  site:http://meusite.com.br/ Ele vai listar varias paginas indexadas.
  
  Queria isto de uma maneira mais agressiva / automatizada.
  Seria para entender melhor a estrutura do site.
  
  Abraços.
- web crawler com php não obtém todo o conteúdo da página
  Por DAMPA
  
  Olá a todos, estou desenvolvendo um crawler, mas estou tendo dificuldades em obter os dados da página.
  
  Deixa eu explicar de forma detalhada
  
  O crawler enxerga o html que a página gera, e tudo bem, a idéia é essa mesmo.
  
  Estou buscando o "H1" da página e o crawler não encontra.
  
  Quando acesso o site pelo navegador e clico em "ver código fonte" verifico que realmente o "H1" não existe, mas quando peço para "inspecionar elemento" pelo navegador o "H1" está lá, justamente na página que estou fazendo a pesquisa com o crawler.
  
  Alguém me dá uma luz de como posso obter esses dados?

Entrar

Arquivado

Crawler Web

Recommended Posts

Ivan.Teles 23

Compartilhar este post

Link para o post

Compartilhar em outros sites

Não consigo carregar imagem do captcha no meu formulário

Estou criando uma calculadora de m2 e litros de tinta

Cruzamento de Bases

Conteúdo Similar

Este projeto é apoiado pelas empresas

Fóruns

Tempo Real

Informação importante