hadoop vs teradata Qual é a diferença
Exemplo simples: quero construir o ETL que irá transformar milhares de milhões de linhas de dados brutos e organizar eles para o DWH. Então faça alguns recursos análise cara sobre eles. Porquê usar TD? Porquê O Hadoop? ou porque não?
4 answers
Hadoop, Hadoop com extensões, RDBMS Feature/Property Comparison
Não sou um perito nesta área, mas na coursera.com course, Introduction to Data Science, there is a lecture titled: Comparing MapReduce and Databases as well as a lecture on Parallel databases within the map reduce section of the course.Aqui está um resumo destas palestras sobre a comparação de MapReduce vs. RDBMS (não necessariamente paralelos RDMBS). Um ponto A Recordar é que o a comparação é diferente se você incluir extensões para Hadoop como porco, Colmeia, etc. I will put in () MapReduce extensions that add some of these functionality/properties.
Algumas funcionalidades / propriedades que os RDBMS têm mas não são nativos MapReduce:
- declaritive query languages - (Pig, Colmeia)
- Esquemas (Colmeia, Porco, DyradLINQ, Hadapt)
- Independência Lógica Dos Dados
- Indexação (Hbase)
- Optimização Algébrica (Pig, Dryad, Colmeia)
- Visualização / Materializada
- ácido / transacções
MapReduce (relativo aos RDBMS regulares não necessariamente paralelos RDMBS)
- Alta Escalabilidade
- Tolerância a falhas
- "destacamento de uma pessoa"
Hadoop é usado por gigantes tecnológicos como Facebook, Yahoo, Twitter, EBay etc para armazenar e analisar o alto volume de dados em tempo real, bem como passivamente.
Para a sua pergunta os sistemas ETL leia estes slides onde irá ver.
Está bem, porquê o Hadoop?- Open Source
- Modelo De Armazenamento e análise comprovado para grandes quantidades de Dados
- requisito mínimo de Hardware para configurar e executar.
- Apoio Comercial
Já me fizeram esta pergunta várias vezes, a resposta que costumo dar é uma analogia de carro (o que é muito tolo porque eu não sou uma pessoa de carro - mas parece funcionar)
- Teradata é o carro / dbms para as massas-é confiável, Maduro, funciona bem e está lá quando você precisa. É difícil (em comparação com o Hadoop) personalizar e adicionar funcionalidade ao produto de base.
Hadoop é o carro / dbms para o entusiasta - não é tão confiável ou Maduro, ele funciona bem desde que trates disso. É fácil (em comparação com Teradata) personalizar e adicionar funcionalidade ao produto de base.
Para voltar à analogia, se você não quiser ser muito técnico e o produto do fabricante (dbms e/ou carro) funciona para você fora da caixa, Teradata é uma boa opção. Por outro lado, se você gosta de fundar sob o capô, trocar o carburador( ou o que quer que), ajustar as relações de engrenagem, ajustar a mistura de ar de combustível dependendo se você é país ou cidade de condução, parafuso em um Turbo carregador e / ou sua família reclamar sobre como o tempo que passas na garagem aos fins - de-semana-o Hadoop é o lugar para ti.
IMHO, a maioria, se não todas as organizações precisam de ambos. Espero que isto ajude: -)