Ir para conteúdo

POWERED BY:

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

fermel

Buscador (tipo google, yahoo, etc...)

Recommended Posts

Olá pessoal, gostaria de saber se alguém sabe como fazer um buscador parecido com o google, etc...

 

é uma coisa pequena teria um formulario que cadastra os sites no banco de dados e outro para fazer a pesquisa que desse um resultado tipo o google....

 

teria que ter essas paradas de relevancia pela palavra chave e tals....

 

Valeuu....

 

 

Olá pessoal, gostaria de saber se alguém sabe como fazer um buscador parecido com o google, etc...

 

 

 

é uma coisa pequena teria um formulario que cadastra os sites no banco de dados e outro para fazer a pesquisa que desse um resultado tipo o google....

 

Valeuu....

Compartilhar este post


Link para o post
Compartilhar em outros sites

eu fiz um a pouco tempo atrás.

 

apartir de uma página inicial, o meu parser procura todas as tags <a> daquele documento, excluindo as que levam para outros dominios.

 

depois disso, ele entra em cada um desses links, procurando por mais.

Faço um array unique, e então visito cada uma das páginas, gravando no banco de dados o conteudo em texto, removendo tags, e removendo o template(cabeçalho e rodapé).

 

Qual a sua dúvida ?

Compartilhar este post


Link para o post
Compartilhar em outros sites

eu fiz um a pouco tempo atrás.

 

apartir de uma página inicial, o meu parser procura todas as tags <a> daquele documento, excluindo as que levam para outros dominios.

 

depois disso, ele entra em cada um desses links, procurando por mais.

Faço um array unique, e então visito cada uma das páginas, gravando no banco de dados o conteudo em texto, removendo tags, e removendo o template(cabeçalho e rodapé).

 

Qual a sua dúvida ?

 

Seria basicamente isso que você fez....

 

o que eu preciso seria o seguinte:

 

um campo para eu cadastrar um site ex: www.baixaki.com.br

quando eu manda cadastra esse site ele vai ler todas as informações que tem nesse site ( title, keywords, description, h1, h2, h3, etc..)

e cadastra no banco de dados....

 

ai eu vou ter o formulario de busca igualzinho o google onde vo digita a palavra que eu quero pesquisa ou o conteudo e ai ele vai me traze o resultado igual o google faz, por relevancia...

 

não tenho noção de como começar a fazer isso....

Compartilhar este post


Link para o post
Compartilhar em outros sites

Bom, se você quer fazer um buscador inteligente e "perfeito" como o Google, então, amigo.. dispenso comentários rs

 

Se você quer algo mais simples pra humanos comuns (rs), você pode só registrar os sites no banco de dados e fazer um campo de pesquisa que retorne os dados do banco de dados no modelo abaixo:

 

Ex.1: formulário de pesquisa:

<form method="post" action="pesquisa.php" name="pesquisa" autocomplete="on">
  <input type="text" name="pesquisa_legal" size="35" required>
  <input type="submit" value="Pesquisar">
</form>

 

Ex.1: página que retorna a pesquisa:

$pesquisa_legal = $_POST["pesquisa_legal"];

$db = mysql_connect ($host, $login_db, $senha_db); //conectamos ao mysql
$basedados = mysql_select_db($database); //conectamos ao database

$pesquisar = mysql_query("SELECT * FROM '$tabela' WHERE nome  LIKE'%$pesquisa_legal%'", $db);
/* o código acima faz a pesquisa retornar qualquer campo no banco de dados que tenha o que foi escrito na pesquisa como resultado */

 

Assim você já consegue fazer uma busca inteligente. Só não vai ter aquele sistema de sinônimos e tal que nem no Google e no Yahoo...

Compartilhar este post


Link para o post
Compartilhar em outros sites

Bom, se você quer fazer um buscador inteligente e "perfeito" como o Google, então, amigo.. dispenso comentários rs

 

Se você quer algo mais simples pra humanos comuns (rs), você pode só registrar os sites no banco de dados e fazer um campo de pesquisa que retorne os dados do banco de dados no modelo abaixo:

 

Ex.1: formulário de pesquisa:

<form method="post" action="pesquisa.php" name="pesquisa" autocomplete="on">  <input type="text" name="pesquisa_legal" size="35" required>  <input type="submit" value="Pesquisar"></form>

Ex.1: página que retorna a pesquisa:

$pesquisa_legal = $_POST["pesquisa_legal"];$db = mysql_connect ($host, $login_db, $senha_db); //conectamos ao mysql$basedados = mysql_select_db($database); //conectamos ao database$pesquisar = mysql_query("SELECT * FROM '$tabela' WHERE nome  LIKE'%$pesquisa_legal%'", $db);/* o código acima faz a pesquisa retornar qualquer campo no banco de dados que tenha o que foi escrito na pesquisa como resultado */

Assim você já consegue fazer uma busca inteligente. Só não vai ter aquele sistema de sinônimos e tal que nem no Google e no Yahoo...

 

Certo ai temos a consulta no banco de dados, mas como eu vou gravar o conteudo das paginas no banco de dados?

 

pois teria que ser mais ou menos assim

 

 

um campo para eu cadastrar um site ex: www.baixaki.com.br

quando eu manda cadastra esse site ele vai ler todas as informações que tem nesse site ( title, keywords, description, h1, h2, h3, etc..)

e cadastra no banco de dados....

 

ai eu vou ter o formulario de busca igualzinho o google onde vo digita a palavra que eu quero pesquisa ou o conteudo e ai ele vai me traze o resultado igual o google faz, por relevancia...

 

não tenho noção de como começar a fazer isso....

 

 

.

Compartilhar este post


Link para o post
Compartilhar em outros sites

- Desenvolva um crawler (sabe ao menos o que é um crawler?)

- Crie a modelagem do banco de dados e do modelo de negócio

- Tenha ao menos 1 servidor dedicado apenas para começar (no brasil, cerca de 1.500 a 3 mil dólares mensal)

- Espaço em disco de pelo menos 1 TB só para começar

- Gerenciador de dicionários linguísticos e enciclopédias e obviamente ter os bancos de dados já com as palavras dos dicionários linguísticos de pelo menos os idiomas mais populares do mundo, apenas para começar.

Note que um dicionário para um idioma custa em média de 10 a 25 anos para ser produzido por 1 ou 3 pessoas que sejam especilistas linguísticos ou letrados.

- Dicionário de "misspellings"

Base de dados de palavras com erros de gramática ou erros de digitação, devidamente relacionadas ao termo correto mais próximo e relevâncias.

- Filtros anti-spam

- Algoritmos de filtragem, seleção, classificação, organização geral dos dados coletados.

 

 

Isso é o básico para iniciar algo relevante.

 

Se vc ficou cansado só de ler isso, desencana, porque isso não é para você.

Se quer prosseguir, boa sorte.

 

não quero montar algo grande, quero uma coisa pequena apenas para fins didáticos....

 

minha intenção não é competir com algum buscador existente no mercado!

Compartilhar este post


Link para o post
Compartilhar em outros sites

- Desenvolva um crawler (sabe ao menos o que é um crawler?)

- Crie a modelagem do banco de dados e do modelo de negócio

- Tenha ao menos 1 servidor dedicado apenas para começar (no brasil, cerca de 1.500 a 3 mil dólares mensal)

- Espaço em disco de pelo menos 1 TB só para começar

- Gerenciador de dicionários linguísticos e enciclopédias e obviamente ter os bancos de dados já com as palavras dos dicionários linguísticos de pelo menos os idiomas mais populares do mundo, apenas para começar.

Note que um dicionário para um idioma custa em média de 10 a 25 anos para ser produzido por 1 ou 3 pessoas que sejam especilistas linguísticos ou letrados.

- Dicionário de "misspellings"

Base de dados de palavras com erros de gramática ou erros de digitação, devidamente relacionadas ao termo correto mais próximo e relevâncias.

- Filtros anti-spam

- Algoritmos de filtragem, seleção, classificação, organização geral dos dados coletados.

 

 

Isso é o básico para iniciar algo relevante.

 

Pois é, foi o que eu disse... montar um buscador não é nada simples como pode parecer. O que você pode fazer de simples é montar uma busca por endereços de sites, mas caso queira retornar o conteúdo, tags e etc. vai ter que usar essa lista mesmo e penar um bocado até terminar o projeto se for fazer tudo sozinho.

 

Nesse caso de fazer sozinho, eu diria que, com muita sorte, você vá terminar em uns 30 ou 40 anos rs

 

Um buscador desse nível não é algo que se faça por diversão, necessita de um investimento econômico e de tempo absurdamente grande, uma equipe gigante de profissionais de altíssima qualidade, mas isso só se quiser terminar antes da próxima geração chegar.

 

Ainda que você "pegue" os dicionários prontos sei lá de onde, ainda vai precisar dos algorítmos de filtragem e bla bla bla, além do crawler e todo o resto. Repito: pode parecer, mas montar um buscador desse nível que você quer não é nada simples. Nadinha mesmo.

Compartilhar este post


Link para o post
Compartilhar em outros sites

não tenho noção de como começar a fazer isso....

ai fica complicado amigo.. comece. Só isso.

 

comece. Vc consegue pegar o conteudo de URLs com cURL ou file_get_contents(), dai é um problema de cada vez.

vai fazendo.

 

 

Para identificar as tags, eu tenho uma classe q faz um parser com expressão regular, então consigo guardar em colunas separadas a description, title em outras colunas.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Galera o que eu quero é algo bem simples, parecido com esse http://www.ungle.tk

 

ali em baixo ele cadastra o site que ele quer indexar, e vai cadastrando os sites, depois pode pesquisa que ele vai busca a palavra dentro dos sites indexados.... ele traz por relevancia a consulta... é algo simples mesmo que preciso

 

Galera, olha só como ta ficando o buscador..... http://www.vingadorbuscador.tk

 

só preciso fazer a indexação correta pois não estou conseguindo ler os conteudo das tags H1,h2.... etc... só consegui pergar o conteudo das tags p e title para armazena no banco de dados...

Compartilhar este post


Link para o post
Compartilhar em outros sites

mostre como vc leu o conteudo do <P> e do <TITLE>, ai vamos te ajudar a corrigir o parser para os <Hx>

Compartilhar este post


Link para o post
Compartilhar em outros sites

continua inacessível

 

sou do japão..

 

 

não vai dizer que está usando noip e hospedando num pc no seu quarto né ? rsss

Compartilhar este post


Link para o post
Compartilhar em outros sites

continua inacessível

 

sou do japão..

 

 

não vai dizer que está usando noip e hospedando num pc no seu quarto né ? rsss

 

puts, muito estranho..... aqui ta abrindo normal :S

Compartilhar este post


Link para o post
Compartilhar em outros sites

por curiosidade, o domínio safeton.com.br também é inacessível..

 

provavelmente o provedor onde hospeda não possui estrutura adequada.

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.