hadoop vs teradata Qual é a diferença

Question

hadoop vs teradata Qual é a diferença

Toquei numa Teradata. Nunca toquei no hadoop, mas desde ontem, estou a fazer uma pesquisa sobre isso. Por descrição de ambos, eles parecem bastante intercambiáveis, mas em alguns artigos é escrito que eles servem para diferentes propósitos. Mas tudo o que encontrei foi vago. Estou confuso.

Alguém tem experiência com ambos? Qual é a grande diferença entre eles?

Exemplo simples: quero construir o ETL que irá transformar milhares de milhões de linhas de dados brutos e organizar eles para o DWH. Então faça alguns recursos análise cara sobre eles. Porquê usar TD? Porquê O Hadoop? ou porque não?

8

hadoop database business-intelligence teradata

Author: Brian Tompsett - 汤莱恩, 2013-01-31

Source

4 answers

score 7 · Answer 1

Este artigo intitulado "MapReduce and Parallel DBMSs: Friends or Foes" faz um bom trabalho descrevendo as situações em que cada tecnologia funciona melhor. Em poucas palavras, Hadoop é excelente para armazenar dados não estruturados e executar transformações paralelas para 'sanitar' dados de entrada, onde DBMSs excel em executar consultas complexas rapidamente.

score 3 · Answer 2

Hadoop, Hadoop com extensões, RDBMS Feature/Property Comparison

Não sou um perito nesta área, mas na coursera.com course, Introduction to Data Science, there is a lecture titled: Comparing MapReduce and Databases as well as a lecture on Parallel databases within the map reduce section of the course.

Aqui está um resumo destas palestras sobre a comparação de MapReduce vs. RDBMS (não necessariamente paralelos RDMBS). Um ponto A Recordar é que o a comparação é diferente se você incluir extensões para Hadoop como porco, Colmeia, etc. I will put in () MapReduce extensions that add some of these functionality/properties.

Algumas funcionalidades / propriedades que os RDBMS têm mas não são nativos MapReduce:

declaritive query languages - (Pig, Colmeia)
Esquemas (Colmeia, Porco, DyradLINQ, Hadapt)
Independência Lógica Dos Dados
Indexação (Hbase)
Optimização Algébrica (Pig, Dryad, Colmeia)
Visualização / Materializada
ácido / transacções

MapReduce (relativo aos RDBMS regulares não necessariamente paralelos RDMBS)

Alta Escalabilidade
Tolerância a falhas
"destacamento de uma pessoa"

score 1 · Answer 3

Para começar, Vanilla Apache Hadoop é 100% open source. Mas se você precisa de apoio comercial, juntamente com consultoria, existem empresas como Cloudera, MapR, HortonWorks, etc. O Hadoop é apoiado por uma comunidade crescente a reparar erros e a fazer melhorias numa base consistente. O modelo de armazenamento Hadoop HDFS é baseado na arquitetura do Google GFS, que está provado lidar com grandes quantidades de dados. Além disso, a redução do modelo de análise Hadoop baseia-se no mapa do Google Reduzir O Modelo.

Hadoop é usado por gigantes tecnológicos como Facebook, Yahoo, Twitter, EBay etc para armazenar e analisar o alto volume de dados em tempo real, bem como passivamente.

Para a sua pergunta os sistemas ETL leia estes slides onde irá ver.

Está bem, porquê o Hadoop?

Open Source
Modelo De Armazenamento e análise comprovado para grandes quantidades de Dados
requisito mínimo de Hardware para configurar e executar.

Muito bem, porquê? TD?

Apoio Comercial

score 0 · Answer 4

Já me fizeram esta pergunta várias vezes, a resposta que costumo dar é uma analogia de carro (o que é muito tolo porque eu não sou uma pessoa de carro - mas parece funcionar)

Teradata é o carro / dbms para as massas-é confiável, Maduro, funciona bem e está lá quando você precisa. É difícil (em comparação com o Hadoop) personalizar e adicionar funcionalidade ao produto de base. Hadoop é o carro / dbms para o entusiasta - não é tão confiável ou Maduro, ele funciona bem desde que trates disso. É fácil (em comparação com Teradata) personalizar e adicionar funcionalidade ao produto de base. Por outras palavras, Teradata é o cavalo de trabalho fiável onde coloca o seu processo crítico de missão (relatórios operacionais, relatórios empresariais, apoio à decisão, etc.). Hadoop é o lugar onde você pode fazer muitas dessas coisas, mas não se surpreenda se você vir em uma manhã e descobrir que seus relatórios regulatórios não podem ser produzidos porque alguém aplicou um patch ou de repente, tens um problema com" demasiados ficheiros pequenos".

Para voltar à analogia, se você não quiser ser muito técnico e o produto do fabricante (dbms e/ou carro) funciona para você fora da caixa, Teradata é uma boa opção. Por outro lado, se você gosta de fundar sob o capô, trocar o carburador( ou o que quer que), ajustar as relações de engrenagem, ajustar a mistura de ar de combustível dependendo se você é país ou cidade de condução, parafuso em um Turbo carregador e / ou sua família reclamar sobre como o tempo que passas na garagem aos fins - de-semana-o Hadoop é o lugar para ti.

IMHO, a maioria, se não todas as organizações precisam de ambos. Espero que isto ajude: -)