DB com indexação para Documentos Heterogêneos

Marília Neves · Maio 2, 2014

Ola pessoal, estou precisando de um Banco de Dados para guardar documentos heterogêneos para mais tarde criar um interface de pesquisa para usuários, porém para mim não perder tempo gostaria de jogar os dados nesse banco e ele já criasse pra mim a indexação, sem que eu precise fazer isso manualmente, alguém me falou sobre NoSQL, lí algo sobre e pareceu interessante, mais ainda não encontrei exatamente o que preciso, não sei se o que eu quero é possível, mais se alguém saber de algo me indica. :kiss:

Motta · Maio 2, 2014

Como seria esta indexação ?

Marília Neves · Maio 5, 2014

Algo que facilite a pesquisa dos documentos, pois serão muitos.

Jeferson Daniel · Maio 10, 2014

Se o problema for uma busca textual os bancos de dados baseados em Lucene (Solr e Elastic Search) oferecem uma performance à nível de milhares de requisições por segundo.

Agora, se for algo que envolva relacionamentos como, por exemplo listar todos os cheques emitidos pelos clientes de um determinado vendedor, o problema é outro.

Vergil · Maio 28, 2014

Você tem algumas boas opções pra apreciação. Não creio que um banco NoSQL seria a melhor solução. Sinceramente, não sei se existe um SGDB NoSQL que implemente full-text search de fato. Eu já até tentei simular full-text search no MongoDB: pegava o texto que seria consultado pelo usuário, substituia todos os caracteres especiais e punha tudo em caixa-alta pra depois salvar numa coleção do MongoDB como uma matriz de String. Quando o usuário digitava os parâmetros da pesquisa eu os tratava removendo os caracteres especiais e passando-os para caixa-alta; pra finalmente fazer uma consulta utilizando $all.

Há a possibilidade de se usar um SGDB relacional que dê suporte a full-text search como o PostgreSQL http://www.postgresql.org/docs/9.2/static/textsearch-intro.html .

Porém o mais indicado - na minha humilde opinião - neste caso seria utilizar uma ferramenta de indexação no file system. Como o colega Jeferson Daniel sugeriu, pode-se utilizar Solr ou Elastic Search que utilizam o Lucene para indexação de texto.

Para qualquer uma das opções apresentadas será necessário antes fazer a extração de texto plano dos seus documentos. Então tu terás que buscar bibliotecas para extração de texto para documentos PDF, DOC, DOCX, ODF etc.

Entrar

Arquivado

DB com indexação para Documentos Heterogêneos

Recommended Posts

Marília Neves 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Motta 645

Compartilhar este post

Link para o post

Compartilhar em outros sites

Marília Neves 0

Compartilhar este post

Link para o post

Compartilhar em outros sites

Jeferson Daniel 11

Compartilhar este post

Link para o post

Compartilhar em outros sites

Vergil 15

Compartilhar este post

Link para o post

Compartilhar em outros sites

printf iniciante básico

JAVA - Orientação para Invalidar Sessão

JAVA - Ajuda em Paginação

Este projeto é apoiado pelas empresas

Fóruns

Tempo Real

Informação importante