Quais são as ferramentas e técnicas de código aberto para construir uma plataforma de armazenamento de dados completo? [fechado]

Estou à procura destas ferramentas de código aberto, possivelmente grátis ou com versão de teste gratuito, para configurar a pilha completa de armazenamento de dados.

Eu sei sobre alguns como Pentaho open source Mondrian server, mas não consegui nenhum resultado do google para configurar a plataforma completa. Não tenho a certeza se estes componentes são compatíveis uns com os outros? Alguém pode listá-los juntamente com a sua posição na cadeia?

Author: A-B-B, 2010-07-22

5 answers

O Armazenamento de dados de código aberto faz um grande trabalho na identificação de componentes OSS que poderiam ser usados para construir uma pilha de dados: infra-estrutura (servidores, OS, bases de Dados), Gestão de integração (ETL, EAI, etc), Gestão de informação (DW/Mart/ODS, servidores OLap, etc), Entrega de Informação (Portal, Painel de instrumentos, análise/cliente OLAP, etc). Aqui está um resumo:

Open Source BI/DW Projects

BI e análise

Bases de Dados

Integração

Recomendo navegar apresentacao. Bom.

 42
Author: Pascal Thivent, 2017-01-31 12:44:21

Uma pilha de datawarehouse (ou conjunto) normalmente consiste em três camadas. Estes são normalmente referenciados como ETL (carregamento), Database & Reporting (interface). Além disso, existem ferramentas um pouco mais avançadas para o desempenho e necessidades de especialistas. Estes consistem em Cubes e Statistical Analysis Tools.

No que diz respeito à interoperabilidade, as ferramentas ETL e as ferramentas de comunicação têm de suportar qualquer base de dados que estejam a utilizar. No entanto, uma vez que existem apenas duas grandes bases de dados de código aberto, geralmente não há problema misturar diferentes soluções.

Quanto às especificidades -

1 - ETL

O carregamento de dados pode ser alcançado por ferramentas de código aberto como a integração de dados do Pentaho ou Talend (uma extensão do eclipse). Eu sugeriria pesquisar no Google "open source etl" para adaptar a solução para as suas necessidades específicas.

2 - DB

Vai precisar de uma base de dados relacional. Os dois jogadores de código aberto mais proeminentes são PostgreSQL (usado por Stack Overflow) e MySQL. Enquanto MySQL tem uma base de Usuários maior, Postgres está ganhando mais popularidade desde que implementou várias características cruciais que estavam faltando em versões anteriores.

3 - apresentação de relatórios

Pentaho offer reporting platform. Assim como BIRT (outra extensão do eclipse). Mais uma vez, o Google é seu amigo para comparações específicas. Note que quando você escolher o Pentaho tanto para o ETL quanto para as ferramentas de Relatórios, você provavelmente irá desfrutar de uma melhor integração. Você também mencionou Mondrian, que é uma ferramenta para gerar consultas MDX sobre um RDBMS. MDX é a linguagem padrão para questionar cubos. Neste momento, assumindo que está a começar do zero, recomendo a criação das duas primeiras camadas do data warehouse - ETL & DB. Você pode adicionar mais tarde qualquer número de ferramentas de relatório acima.
 9
Author: shmichael, 2010-07-23 09:05:53

Esta é outra questão semelhante 20 mil milhões de linhas / mês-Hbase / Hive / Greenplum / o quê?

A parte mais relevante:

Não consigo enfatizar isto o suficiente: obter algo que toque bem com ferramentas de reportagem.

.

A colmeia ou a HBase puseram-te no negócio de construir uma fachada personalizada, o que não queres mesmo, a não ser que estejas feliz por passar os próximos 5 anos a escrever relatórios personalizados em Jiboia.
 4
Author: Sandeep, 2017-05-23 12:02:20

Expandindo o que Pascal escreveu:

Servidor OLAP: Mondrian

Tabelas de articulação de AJAX: Saiku

OLAP schema designer: Pentaho Schema Workbench

Desenhador de agregados OLAP: desenhador de agregação Pentaho

ETL: Chaleira Pentaho

Desenhador de relatórios Pentaho

Qualidade Dos Dados:

Armazém De Dados Colunares: MonetDB

Extracção De Dados: RapidMiner

 3
Author: Neil McGuigan, 2013-08-09 04:53:11

Qualidade dos dados e Perfil - http://sourceforge.net/projects/dataquality/

Também tem ligação de Colmeias e bancada de dados para criar dados da vida real.
 -1
Author: vivek, 2014-01-16 07:40:40