Ir para conteúdo

POWERED BY:

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

Link Afiliados Menchini

[Resolvido] Como fazer sistema de busca em outros sites?

Recommended Posts

você pode fazer busca em um unico site no google, é só pesquisar por "site:www.nomedosite.com.br"

Compartilhar este post


Link para o post
Compartilhar em outros sites

se for um site terceiro ao qual não tem acesso ou acordo sobre uso, o jeito é criar o seu próprio bot para capturar os dados, gravar no seu banco de dados particular e então, a partir do seu banco de dados fazer a busca.

 

basicamente o que faz os bucadores google, bing, etc...

 

você pode usar também os resultados do google, mas logo bloquearão o seu IP caso percebam algum flood, mesmo que seja pequeno.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Usando CURL ou o simples file_get_contents

 

$url = 'http://foo.bar'; // endereço do site
$content = file_get_contents( $url );

 

Dentro da variável "$content", basta fitrar o que quer indexar.

 

Por exemplo, pegue tudo que está dentro da tag body.

Estabeleça os critérios, por exemplo, se quer pegar somente conteúdo texto, ignorando as sintaxes HTML, use a função strip_tags

 

Supondo que a página retorne isso:

<html>
<title>foo</title>
<body>lrem <b>ipsum</b>
<br />
<img src='logo.jpg' />
<br />ba bla bla , noon nono no..
</body>
</html>

 

após a filtragem ficará assim:

lrem ipsum
ba bla bla , noon nono no..

 

Mais uma situação:

"Manter ou não manter a quebra de linha ?"

 

Na prática, você vai encontrar situações diversas.

 

 

No banco de dados, faça algo simples e implemente conforme for conveniente.

Sugiro criar uma tabela +- assim

 

pages
  - id
  - title
  - url
  - content
  - date_created
  - date_updated

 

O bot deve ser executado periodicamente para indexar conteúdo novo.

Para isso, terá que criar um agendamento para execução em background (cronjob ou schedtask)

 

 

 

Outro ponto muito importante. O bot deve ter autonomia para buscar urls automaticamente, afinal, você não vai querer cadastrar manualmente cada página, certo ?

 

$url = 'http://foo.bar'; // endereço do site
$content = file_get_contents( $url );

Antes de fazer as filtragens, busque tudo que tiver formato de URL, excluindo .js, .css, imagens, etc.

Faça o bot capturar os links, que sejam dentro do domínio do site, e deixá-los numa fila para serem indexados.

 

 

A base um buscador de sites é basicamente isso

Compartilhar este post


Link para o post
Compartilhar em outros sites

Ótima explicação hinom!

 

Agora, como buscar url automaticamente? n faço a minima ideia de como fazer isso :/

 

**** opcional ***** :)

Tive uma ideia! os sites que eu quero pesquisar tem conta no feedburner... tem algum jeito de pesquisar nos titulos dos artigos do feedburner? lembrando que quero fazer uma busca mas em todos os sites e listar os links encontrados na pagina.

Compartilhar este post


Link para o post
Compartilhar em outros sites
? lembrando que quero fazer uma busca mas em todos os sites e listar os links encontrados na pagina.

não era apenas 1 site específico ?

 

#1

Quero fazer a mesma coisa que o google, mas quero pesquisar somente em um site (que eu vou determinar) e não em todos igual o google faz.

 

 

se for apenas um site, a primeira página faça manualmente e deixe o bot rodar a partir daí..

 

 

se for para todos os sites.. a conversa muda de rumo..

 

 

quanto aos feeds... sim...

o que vai determinar o que deve ser indexado é o seu modelo de negócios..

Compartilhar este post


Link para o post
Compartilhar em outros sites

Pode usar DOM, expressões regulares ou as funções de manipulação de strings do php.

 

Você já entendeu como é o processo. Daqui pra frente é contigo.

 

Se quer uma consultoria mais específica em particular, contrate um profissional qualificado.

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.