Ir para conteúdo

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

Marília Neves

DB com indexação para Documentos Heterogêneos

Recommended Posts

Ola pessoal, estou precisando de um Banco de Dados para guardar documentos heterogêneos para mais tarde criar um interface de pesquisa para usuários, porém para mim não perder tempo gostaria de jogar os dados nesse banco e ele já criasse pra mim a indexação, sem que eu precise fazer isso manualmente, alguém me falou sobre NoSQL, lí algo sobre e pareceu interessante, mais ainda não encontrei exatamente o que preciso, não sei se o que eu quero é possível, mais se alguém saber de algo me indica. :kiss:

Compartilhar este post


Link para o post
Compartilhar em outros sites

Se o problema for uma busca textual os bancos de dados baseados em Lucene (Solr e Elastic Search) oferecem uma performance à nível de milhares de requisições por segundo.

 

Agora, se for algo que envolva relacionamentos como, por exemplo listar todos os cheques emitidos pelos clientes de um determinado vendedor, o problema é outro.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Você tem algumas boas opções pra apreciação. Não creio que um banco NoSQL seria a melhor solução. Sinceramente, não sei se existe um SGDB NoSQL que implemente full-text search de fato. Eu já até tentei simular full-text search no MongoDB: pegava o texto que seria consultado pelo usuário, substituia todos os caracteres especiais e punha tudo em caixa-alta pra depois salvar numa coleção do MongoDB como uma matriz de String. Quando o usuário digitava os parâmetros da pesquisa eu os tratava removendo os caracteres especiais e passando-os para caixa-alta; pra finalmente fazer uma consulta utilizando $all.

 

Há a possibilidade de se usar um SGDB relacional que dê suporte a full-text search como o PostgreSQL http://www.postgresql.org/docs/9.2/static/textsearch-intro.html .

 

Porém o mais indicado - na minha humilde opinião - neste caso seria utilizar uma ferramenta de indexação no file system. Como o colega Jeferson Daniel sugeriu, pode-se utilizar Solr ou Elastic Search que utilizam o Lucene para indexação de texto.

 

Para qualquer uma das opções apresentadas será necessário antes fazer a extração de texto plano dos seus documentos. Então tu terás que buscar bibliotecas para extração de texto para documentos PDF, DOC, DOCX, ODF etc.

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.