Como faço para visualizar um grande conjunto de documentos?

votos
1

Eu tenho 100 Gb de documentos. Eu gostaria de caracterizá-la e ter uma noção geral do que temas são predominantes.

Os documentos estão de texto simples.

Eu tenho considerado usando uma ferramenta como o Google Desktop para pesquisar, mas ele é muito grande para realmente acho que o que procurar pedir e muito demorado para realizar pesquisas suficientes para cobrir todo o conjunto.

Existem algumas ferramentas livremente disponíveis, que irá se aglomeram um grande conjunto de dados de documentos?

Há alguma dessas ferramentas que podem visualizar tais conjuntos?

Publicado 19/05/2009 em 23:01
fonte usuário
Em outras línguas...                            


2 respostas

votos
0

Para uma abordagem básica PNL, pode representar cada documento como um vector com base em frequências de palavras, então aglomerar os vectores de documentos utilizando métodos de Bayesian ou outros (SVM, K-means, etc).

Para obter respostas relacionadas, consulte esta pergunta um pouco semelhante SO .

Respondeu 21/05/2009 em 22:44
fonte usuário

votos
-1

Você precisa olhar para as ferramentas que fazem o processamento da linguagem natural. Basicamente, você pode muito determinar com fiabilidade (usando ferramentas estatísticas) o idioma de um documento (ver http://en.wikipedia.org/wiki/N-gram ) eo domínio do discurso (veja http://en.wikipedia.org / wiki / Support_vector_machine ). Algumas ferramentas devem estar disponíveis se você começar a partir de wikipedia.

Respondeu 19/05/2009 em 23:45
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more