Quais são as ferramentas e técnicas de código aberto para construir uma plataforma de armazenamento de dados completo? [fechado]

Question

Quais são as ferramentas e técnicas de código aberto para construir uma plataforma de armazenamento de dados completo? [fechado]

Estou à procura destas ferramentas de código aberto, possivelmente grátis ou com versão de teste gratuito, para configurar a pilha completa de armazenamento de dados.

Eu sei sobre alguns como Pentaho open source Mondrian server, mas não consegui nenhum resultado do google para configurar a plataforma completa. Não tenho a certeza se estes componentes são compatíveis uns com os outros? Alguém pode listá-los juntamente com a sua posição na cadeia?

30

open-source data-warehouse

Author: A-B-B, 2010-07-22

Source

5 answers

Uma pilha de datawarehouse (ou conjunto) normalmente consiste em três camadas. Estes são normalmente referenciados como ETL (carregamento), Database & Reporting (interface). Além disso, existem ferramentas um pouco mais avançadas para o desempenho e necessidades de especialistas. Estes consistem em Cubes e Statistical Analysis Tools.

No que diz respeito à interoperabilidade, as ferramentas ETL e as ferramentas de comunicação têm de suportar qualquer base de dados que estejam a utilizar. No entanto, uma vez que existem apenas duas grandes bases de dados de código aberto, geralmente não há problema misturar diferentes soluções.

Quanto às especificidades -

1 - ETL

O carregamento de dados pode ser alcançado por ferramentas de código aberto como a integração de dados do Pentaho ou Talend (uma extensão do eclipse). Eu sugeriria pesquisar no Google "open source etl" para adaptar a solução para as suas necessidades específicas.

2 - DB

Vai precisar de uma base de dados relacional. Os dois jogadores de código aberto mais proeminentes são PostgreSQL (usado por Stack Overflow) e MySQL. Enquanto MySQL tem uma base de Usuários maior, Postgres está ganhando mais popularidade desde que implementou várias características cruciais que estavam faltando em versões anteriores.

3 - apresentação de relatórios

Pentaho offer reporting platform. Assim como BIRT (outra extensão do eclipse). Mais uma vez, o Google é seu amigo para comparações específicas. Note que quando você escolher o Pentaho tanto para o ETL quanto para as ferramentas de Relatórios, você provavelmente irá desfrutar de uma melhor integração. Você também mencionou Mondrian, que é uma ferramenta para gerar consultas MDX sobre um RDBMS. MDX é a linguagem padrão para questionar cubos. Neste momento, assumindo que está a começar do zero, recomendo a criação das duas primeiras camadas do data warehouse - ETL & DB. Você pode adicionar mais tarde qualquer número de ferramentas de relatório acima.

9

Author: shmichael, 2010-07-23 09:05:53

Esta é outra questão semelhante 20 mil milhões de linhas / mês-Hbase / Hive / Greenplum / o quê?

A parte mais relevante:

Não consigo enfatizar isto o suficiente: obter algo que toque bem com ferramentas de reportagem.

.

A colmeia ou a HBase puseram-te no negócio de construir uma fachada personalizada, o que não queres mesmo, a não ser que estejas feliz por passar os próximos 5 anos a escrever relatórios personalizados em Jiboia.

4

Author: Sandeep, 2017-05-23 12:02:20

Expandindo o que Pascal escreveu:

Servidor OLAP: Mondrian

Tabelas de articulação de AJAX: Saiku

OLAP schema designer: Pentaho Schema Workbench

Desenhador de agregados OLAP: desenhador de agregação Pentaho

ETL: Chaleira Pentaho

Desenhador de relatórios Pentaho

Qualidade Dos Dados:

Armazém De Dados Colunares: MonetDB

Extracção De Dados: RapidMiner

3

Author: Neil McGuigan, 2013-08-09 04:53:11

Qualidade dos dados e Perfil - http://sourceforge.net/projects/dataquality/

Também tem ligação de Colmeias e bancada de dados para criar dados da vida real.

-1

Author: vivek, 2014-01-16 07:40:40

score 42 · Accepted Answer

O Armazenamento de dados de código aberto faz um grande trabalho na identificação de componentes OSS que poderiam ser usados para construir uma pilha de dados: infra-estrutura (servidores, OS, bases de Dados), Gestão de integração (ETL, EAI, etc), Gestão de informação (DW/Mart/ODS, servidores OLap, etc), Entrega de Informação (Portal, Painel de instrumentos, análise/cliente OLAP, etc). Aqui está um resumo:

Open Source BI/DW Projects

BI e análise

BEE - http://bee.insightstrategy.cz/en/index.html

BIRT - http://www.eclipse.org/birt
Jesperssoft. http://www.jaspersoft.com
MarvelIT - http://www.marvelit.com/dash.html

OpenI – http://openi.sourceforge.net

relatórios abertos - http://oreports.com

Laranja - http://www.ailab.si/orange

Palo - http://www.palo.net
Pentaho - http://www.pentaho.com
R - http://www.r-project.org
SpagoBI - http://spagobi.eng.it Weka - http://www.cs.waikato.ac.nz / ~ml/index.html VitalSigns - http://vitalsigns.sourceforge.net/

Bases de Dados

http://greenplum.org (bizgres)

http://www.ingres.com

http://www.mysql.com

http://www.postgresql.org

http://www.enterprisedb.com

Integração

Apatar - http://www.apatar.com

CloverETL - http://cloveretl.berlios.de/

JitterBit - http://www.jitterbit.com/

KETL - http://www.ketl.org
Polvo - http://www.enhydra.org/tech/octopus/index.html
OSDQ - http://sourceforge.net/projects/dataquality
Pentaho - http://www.pentaho.com
Chapéu Vermelho - http://www.redhat.com
Saga.M31 Galaxy - http://galaxy.sagadc.com
Talend - http://www.talend.com

SnapLogic - http://www.snaplogic.com

Recomendo navegar apresentacao. Bom.