Dados Grande - armazenamento e consulta

votos
2

Nós temos um enorme de dados de cerca de 300 milhões de discos, que são atualizados a cada 3-6 months.We precisam consultar estes dados (continuamente, em tempo real) para obter algum information.What são as opções - um RDBMS (mysql), ou alguma outra opção como Hadoop.Which vai ser melhor?

Publicado 09/12/2008 em 15:30
fonte usuário
Em outras línguas...                            


5 respostas

votos
3

300M registros está bem dentro dos limites de bancos de dados relacionais regulares e consulta ao vivo não deve ser problema se você usar índices corretamente.

Hadoop soa como um exagero a menos que você realmente precisa de dados altamente distribuídas e redundantes, e que também irá torná-lo mais difícil de encontrar apoio, se você tiver problemas ou para otimizações.

Respondeu 09/12/2008 em 15:54
fonte usuário

votos
1

Como outros disseram, RDBMS modernos podem lidar com essas tabelas, dependendo das consultas e esquema (algumas otimizações teria de ser feita). Se você tiver uma boa chave para dividir as linhas por (como uma coluna de data), em seguida, técnicas partioniong / sharding irá ajudá-lo a dividir a tabela em vários pequenos.

Você pode ler mais sobre essas e outras técnicas de dimensionamento de uma pergunta que fiz há algum tempo atrás aqui - soluções de escala para MySQL (replicação, cluster)

Respondeu 09/12/2008 em 15:45
fonte usuário

votos
1

Bem, eu tenho alguns bancos de dados PostgreSQL com algumas tabelas com mais de 700M registros e eles são atualizados o tempo todo.

Uma consulta nas tabelas funciona muito rápido (alguns milissegundos) e sem quaisquer problemas. Agora, os meus dados é bastante simples, e eu tenho índices nos campos I consulta.

Então, eu diria, tudo vai depende de que tipo de perguntas que você estará fazendo, e se você tem dinheiro suficiente para gastar em discos rápidos.

Respondeu 09/12/2008 em 15:37
fonte usuário

votos
0

300 Milhões realmente não contam como grande estes dias :-).

Se você está consultando sua maioria, e, você sabe mais ou menos o que forma as consultas terá então tabelas MySQL com os índices apropriados vai funcionar muito bem.

Se você está constantemente appying atualizações ao mesmo tempo que você está executando consultas em seguida, escolha PostgreSQL, pois tem melhor manuseio concorrência.

MS SQLServer, Sybase, Oracle e DB2 tudo vai lidar com esses volumes com facilidade se a sua empresa prefere gastar dinheiro.

Se por outro lado você pretende fazer consultas formato verdadeiramente livres em dados não estruturados, em seguida, Hadoop ou similar seria uma aposta melhor.

Respondeu 09/12/2008 em 15:48
fonte usuário

votos
0

300 milhões de registros deve representar nenhum problema para um RDBMS topo de gama, como Oracle, SQL Server, DB2. Eu não tenho certeza sobre o MySQL, mas eu tenho certeza que ele é usado para alguns grandes bancos de dados nos dias de hoje.

Respondeu 09/12/2008 em 15:41
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more