fermel 0 Denunciar post Postado Março 20, 2013 Olá pessoal, gostaria de saber se alguém sabe como fazer um buscador parecido com o google, etc... é uma coisa pequena teria um formulario que cadastra os sites no banco de dados e outro para fazer a pesquisa que desse um resultado tipo o google.... teria que ter essas paradas de relevancia pela palavra chave e tals.... Valeuu.... Olá pessoal, gostaria de saber se alguém sabe como fazer um buscador parecido com o google, etc... é uma coisa pequena teria um formulario que cadastra os sites no banco de dados e outro para fazer a pesquisa que desse um resultado tipo o google.... Valeuu.... Compartilhar este post Link para o post Compartilhar em outros sites
Ricardo Saraiva 84 Denunciar post Postado Março 20, 2013 Acho melhor você da mais informações sobre o que você queira que seja retornado. E qual caracteristas das buscas do google você deseja. Compartilhar este post Link para o post Compartilhar em outros sites
William Bruno 1501 Denunciar post Postado Março 20, 2013 eu fiz um a pouco tempo atrás. apartir de uma página inicial, o meu parser procura todas as tags <a> daquele documento, excluindo as que levam para outros dominios. depois disso, ele entra em cada um desses links, procurando por mais. Faço um array unique, e então visito cada uma das páginas, gravando no banco de dados o conteudo em texto, removendo tags, e removendo o template(cabeçalho e rodapé). Qual a sua dúvida ? Compartilhar este post Link para o post Compartilhar em outros sites
Matheus Lucca Carmo 13 Denunciar post Postado Março 20, 2013 Se os sites forem cadastrados , você pode salvar palavras-chaves para cada site , e então , pesquise por palavras chaves Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Março 20, 2013 eu fiz um a pouco tempo atrás. apartir de uma página inicial, o meu parser procura todas as tags <a> daquele documento, excluindo as que levam para outros dominios. depois disso, ele entra em cada um desses links, procurando por mais. Faço um array unique, e então visito cada uma das páginas, gravando no banco de dados o conteudo em texto, removendo tags, e removendo o template(cabeçalho e rodapé). Qual a sua dúvida ? Seria basicamente isso que você fez.... o que eu preciso seria o seguinte: um campo para eu cadastrar um site ex: www.baixaki.com.br quando eu manda cadastra esse site ele vai ler todas as informações que tem nesse site ( title, keywords, description, h1, h2, h3, etc..) e cadastra no banco de dados.... ai eu vou ter o formulario de busca igualzinho o google onde vo digita a palavra que eu quero pesquisa ou o conteudo e ai ele vai me traze o resultado igual o google faz, por relevancia... não tenho noção de como começar a fazer isso.... Compartilhar este post Link para o post Compartilhar em outros sites
Diego Rinno 35 Denunciar post Postado Março 21, 2013 Bom, se você quer fazer um buscador inteligente e "perfeito" como o Google, então, amigo.. dispenso comentários rs Se você quer algo mais simples pra humanos comuns (rs), você pode só registrar os sites no banco de dados e fazer um campo de pesquisa que retorne os dados do banco de dados no modelo abaixo: Ex.1: formulário de pesquisa: <form method="post" action="pesquisa.php" name="pesquisa" autocomplete="on"> <input type="text" name="pesquisa_legal" size="35" required> <input type="submit" value="Pesquisar"> </form> Ex.1: página que retorna a pesquisa: $pesquisa_legal = $_POST["pesquisa_legal"]; $db = mysql_connect ($host, $login_db, $senha_db); //conectamos ao mysql $basedados = mysql_select_db($database); //conectamos ao database $pesquisar = mysql_query("SELECT * FROM '$tabela' WHERE nome LIKE'%$pesquisa_legal%'", $db); /* o código acima faz a pesquisa retornar qualquer campo no banco de dados que tenha o que foi escrito na pesquisa como resultado */ Assim você já consegue fazer uma busca inteligente. Só não vai ter aquele sistema de sinônimos e tal que nem no Google e no Yahoo... Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Março 21, 2013 Bom, se você quer fazer um buscador inteligente e "perfeito" como o Google, então, amigo.. dispenso comentários rs Se você quer algo mais simples pra humanos comuns (rs), você pode só registrar os sites no banco de dados e fazer um campo de pesquisa que retorne os dados do banco de dados no modelo abaixo: Ex.1: formulário de pesquisa: <form method="post" action="pesquisa.php" name="pesquisa" autocomplete="on"> <input type="text" name="pesquisa_legal" size="35" required> <input type="submit" value="Pesquisar"></form> Ex.1: página que retorna a pesquisa: $pesquisa_legal = $_POST["pesquisa_legal"];$db = mysql_connect ($host, $login_db, $senha_db); //conectamos ao mysql$basedados = mysql_select_db($database); //conectamos ao database$pesquisar = mysql_query("SELECT * FROM '$tabela' WHERE nome LIKE'%$pesquisa_legal%'", $db);/* o código acima faz a pesquisa retornar qualquer campo no banco de dados que tenha o que foi escrito na pesquisa como resultado */ Assim você já consegue fazer uma busca inteligente. Só não vai ter aquele sistema de sinônimos e tal que nem no Google e no Yahoo... Certo ai temos a consulta no banco de dados, mas como eu vou gravar o conteudo das paginas no banco de dados? pois teria que ser mais ou menos assim um campo para eu cadastrar um site ex: www.baixaki.com.br quando eu manda cadastra esse site ele vai ler todas as informações que tem nesse site ( title, keywords, description, h1, h2, h3, etc..) e cadastra no banco de dados.... ai eu vou ter o formulario de busca igualzinho o google onde vo digita a palavra que eu quero pesquisa ou o conteudo e ai ele vai me traze o resultado igual o google faz, por relevancia... não tenho noção de como começar a fazer isso.... . Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Março 21, 2013 - Desenvolva um crawler (sabe ao menos o que é um crawler?) - Crie a modelagem do banco de dados e do modelo de negócio - Tenha ao menos 1 servidor dedicado apenas para começar (no brasil, cerca de 1.500 a 3 mil dólares mensal) - Espaço em disco de pelo menos 1 TB só para começar - Gerenciador de dicionários linguísticos e enciclopédias e obviamente ter os bancos de dados já com as palavras dos dicionários linguísticos de pelo menos os idiomas mais populares do mundo, apenas para começar. Note que um dicionário para um idioma custa em média de 10 a 25 anos para ser produzido por 1 ou 3 pessoas que sejam especilistas linguísticos ou letrados. - Dicionário de "misspellings" Base de dados de palavras com erros de gramática ou erros de digitação, devidamente relacionadas ao termo correto mais próximo e relevâncias. - Filtros anti-spam - Algoritmos de filtragem, seleção, classificação, organização geral dos dados coletados. Isso é o básico para iniciar algo relevante. Se vc ficou cansado só de ler isso, desencana, porque isso não é para você. Se quer prosseguir, boa sorte. não quero montar algo grande, quero uma coisa pequena apenas para fins didáticos.... minha intenção não é competir com algum buscador existente no mercado! Compartilhar este post Link para o post Compartilhar em outros sites
hinom 5 Denunciar post Postado Março 21, 2013 a base não muda segue a mesma lista, porém, com recursos reduzidos Compartilhar este post Link para o post Compartilhar em outros sites
Diego Rinno 35 Denunciar post Postado Março 21, 2013 - Desenvolva um crawler (sabe ao menos o que é um crawler?) - Crie a modelagem do banco de dados e do modelo de negócio - Tenha ao menos 1 servidor dedicado apenas para começar (no brasil, cerca de 1.500 a 3 mil dólares mensal) - Espaço em disco de pelo menos 1 TB só para começar - Gerenciador de dicionários linguísticos e enciclopédias e obviamente ter os bancos de dados já com as palavras dos dicionários linguísticos de pelo menos os idiomas mais populares do mundo, apenas para começar. Note que um dicionário para um idioma custa em média de 10 a 25 anos para ser produzido por 1 ou 3 pessoas que sejam especilistas linguísticos ou letrados. - Dicionário de "misspellings" Base de dados de palavras com erros de gramática ou erros de digitação, devidamente relacionadas ao termo correto mais próximo e relevâncias. - Filtros anti-spam - Algoritmos de filtragem, seleção, classificação, organização geral dos dados coletados. Isso é o básico para iniciar algo relevante. Pois é, foi o que eu disse... montar um buscador não é nada simples como pode parecer. O que você pode fazer de simples é montar uma busca por endereços de sites, mas caso queira retornar o conteúdo, tags e etc. vai ter que usar essa lista mesmo e penar um bocado até terminar o projeto se for fazer tudo sozinho. Nesse caso de fazer sozinho, eu diria que, com muita sorte, você vá terminar em uns 30 ou 40 anos rs Um buscador desse nível não é algo que se faça por diversão, necessita de um investimento econômico e de tempo absurdamente grande, uma equipe gigante de profissionais de altíssima qualidade, mas isso só se quiser terminar antes da próxima geração chegar. Ainda que você "pegue" os dicionários prontos sei lá de onde, ainda vai precisar dos algorítmos de filtragem e bla bla bla, além do crawler e todo o resto. Repito: pode parecer, mas montar um buscador desse nível que você quer não é nada simples. Nadinha mesmo. Compartilhar este post Link para o post Compartilhar em outros sites
William Bruno 1501 Denunciar post Postado Março 21, 2013 não tenho noção de como começar a fazer isso....ai fica complicado amigo.. comece. Só isso. comece. Vc consegue pegar o conteudo de URLs com cURL ou file_get_contents(), dai é um problema de cada vez. vai fazendo. Para identificar as tags, eu tenho uma classe q faz um parser com expressão regular, então consigo guardar em colunas separadas a description, title em outras colunas. Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Abril 1, 2013 Galera o que eu quero é algo bem simples, parecido com esse http://www.ungle.tk ali em baixo ele cadastra o site que ele quer indexar, e vai cadastrando os sites, depois pode pesquisa que ele vai busca a palavra dentro dos sites indexados.... ele traz por relevancia a consulta... é algo simples mesmo que preciso Galera, olha só como ta ficando o buscador..... http://www.vingadorbuscador.tk só preciso fazer a indexação correta pois não estou conseguindo ler os conteudo das tags H1,h2.... etc... só consegui pergar o conteudo das tags p e title para armazena no banco de dados... Compartilhar este post Link para o post Compartilhar em outros sites
William Bruno 1501 Denunciar post Postado Abril 1, 2013 mostre como vc leu o conteudo do <P> e do <TITLE>, ai vamos te ajudar a corrigir o parser para os <Hx> Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Abril 1, 2013 ta nesse topico http://forum.imasters.com.br/topic/491047-pegar-conteudo-dentro-de-tags-html/ Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Abril 19, 2013 Galera, olha só como ta ficando meu projeto http://www.vingadorbuscador.tk Compartilhar este post Link para o post Compartilhar em outros sites
hinom 5 Denunciar post Postado Abril 19, 2013 fora do ar.. Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Abril 22, 2013 fora do ar.. cara aqui ta normal.... não saiu do ar não testa de novo Compartilhar este post Link para o post Compartilhar em outros sites
hinom 5 Denunciar post Postado Abril 23, 2013 continua inacessível sou do japão.. não vai dizer que está usando noip e hospedando num pc no seu quarto né ? rsss Compartilhar este post Link para o post Compartilhar em outros sites
fermel 0 Denunciar post Postado Abril 23, 2013 continua inacessível sou do japão.. não vai dizer que está usando noip e hospedando num pc no seu quarto né ? rsss puts, muito estranho..... aqui ta abrindo normal :S Compartilhar este post Link para o post Compartilhar em outros sites
hinom 5 Denunciar post Postado Abril 23, 2013 por curiosidade, o domínio safeton.com.br também é inacessível.. provavelmente o provedor onde hospeda não possui estrutura adequada. Compartilhar este post Link para o post Compartilhar em outros sites