hadoop vs teradata Qual é a diferença

Toquei numa Teradata. Nunca toquei no hadoop, mas desde ontem, estou a fazer uma pesquisa sobre isso. Por descrição de ambos, eles parecem bastante intercambiáveis, mas em alguns artigos é escrito que eles servem para diferentes propósitos. Mas tudo o que encontrei foi vago. Estou confuso.

Alguém tem experiência com ambos? Qual é a grande diferença entre eles?

Exemplo simples: quero construir o ETL que irá transformar milhares de milhões de linhas de dados brutos e organizar eles para o DWH. Então faça alguns recursos análise cara sobre eles. Porquê usar TD? Porquê O Hadoop? ou porque não?

Author: Brian Tompsett - 汤莱恩, 2013-01-31

4 answers

Este artigo intitulado "MapReduce and Parallel DBMSs: Friends or Foes" faz um bom trabalho descrevendo as situações em que cada tecnologia funciona melhor. Em poucas palavras, Hadoop é excelente para armazenar dados não estruturados e executar transformações paralelas para 'sanitar' dados de entrada, onde DBMSs excel em executar consultas complexas rapidamente.
 7
Author: ryanbwork, 2013-04-02 19:58:37

Hadoop, Hadoop com extensões, RDBMS Feature/Property Comparison

Não sou um perito nesta área, mas na coursera.com course, Introduction to Data Science, there is a lecture titled: Comparing MapReduce and Databases as well as a lecture on Parallel databases within the map reduce section of the course.

Aqui está um resumo destas palestras sobre a comparação de MapReduce vs. RDBMS (não necessariamente paralelos RDMBS). Um ponto A Recordar é que o a comparação é diferente se você incluir extensões para Hadoop como porco, Colmeia, etc. I will put in () MapReduce extensions that add some of these functionality/properties.

Algumas funcionalidades / propriedades que os RDBMS têm mas não são nativos MapReduce:

  • declaritive query languages - (Pig, Colmeia)
  • Esquemas (Colmeia, Porco, DyradLINQ, Hadapt)
  • Independência Lógica Dos Dados
  • Indexação (Hbase)
  • Optimização Algébrica (Pig, Dryad, Colmeia)
  • Visualização / Materializada
  • ácido / transacções

MapReduce (relativo aos RDBMS regulares não necessariamente paralelos RDMBS)

  • Alta Escalabilidade
  • Tolerância a falhas
  • "destacamento de uma pessoa"
 3
Author: Yaniv, 2013-05-25 18:09:19
Para começar, Vanilla Apache Hadoop é 100% open source. Mas se você precisa de apoio comercial, juntamente com consultoria, existem empresas como Cloudera, MapR, HortonWorks, etc. O Hadoop é apoiado por uma comunidade crescente a reparar erros e a fazer melhorias numa base consistente. O modelo de armazenamento Hadoop HDFS é baseado na arquitetura do Google GFS, que está provado lidar com grandes quantidades de dados. Além disso, a redução do modelo de análise Hadoop baseia-se no mapa do Google Reduzir O Modelo.

Hadoop é usado por gigantes tecnológicos como Facebook, Yahoo, Twitter, EBay etc para armazenar e analisar o alto volume de dados em tempo real, bem como passivamente.

Para a sua pergunta os sistemas ETL leia estes slides onde irá ver.

Está bem, porquê o Hadoop?
  1. Open Source
  2. Modelo De Armazenamento e análise comprovado para grandes quantidades de Dados
  3. requisito mínimo de Hardware para configurar e executar.
Muito bem, porquê? TD?
  1. Apoio Comercial
 1
Author: shazin, 2013-01-31 10:23:07

Já me fizeram esta pergunta várias vezes, a resposta que costumo dar é uma analogia de carro (o que é muito tolo porque eu não sou uma pessoa de carro - mas parece funcionar)

    Teradata é o carro / dbms para as massas-é confiável, Maduro, funciona bem e está lá quando você precisa. É difícil (em comparação com o Hadoop) personalizar e adicionar funcionalidade ao produto de base. Hadoop é o carro / dbms para o entusiasta - não é tão confiável ou Maduro, ele funciona bem desde que trates disso. É fácil (em comparação com Teradata) personalizar e adicionar funcionalidade ao produto de base.
Por outras palavras, Teradata é o cavalo de trabalho fiável onde coloca o seu processo crítico de missão (relatórios operacionais, relatórios empresariais, apoio à decisão, etc.). Hadoop é o lugar onde você pode fazer muitas dessas coisas, mas não se surpreenda se você vir em uma manhã e descobrir que seus relatórios regulatórios não podem ser produzidos porque alguém aplicou um patch ou de repente, tens um problema com" demasiados ficheiros pequenos".

Para voltar à analogia, se você não quiser ser muito técnico e o produto do fabricante (dbms e/ou carro) funciona para você fora da caixa, Teradata é uma boa opção. Por outro lado, se você gosta de fundar sob o capô, trocar o carburador( ou o que quer que), ajustar as relações de engrenagem, ajustar a mistura de ar de combustível dependendo se você é país ou cidade de condução, parafuso em um Turbo carregador e / ou sua família reclamar sobre como o tempo que passas na garagem aos fins - de-semana-o Hadoop é o lugar para ti.

IMHO, a maioria, se não todas as organizações precisam de ambos. Espero que isto ajude: -)

 0
Author: GMc, 2018-09-26 04:21:12