Quais são as ferramentas e técnicas de código aberto para construir uma plataforma de armazenamento de dados completo? [fechado]
Estou à procura destas ferramentas de código aberto, possivelmente grátis ou com versão de teste gratuito, para configurar a pilha completa de armazenamento de dados.
Eu sei sobre alguns como Pentaho open source Mondrian server, mas não consegui nenhum resultado do google para configurar a plataforma completa. Não tenho a certeza se estes componentes são compatíveis uns com os outros? Alguém pode listá-los juntamente com a sua posição na cadeia?
5 answers
O Armazenamento de dados de código aberto faz um grande trabalho na identificação de componentes OSS que poderiam ser usados para construir uma pilha de dados: infra-estrutura (servidores, OS, bases de Dados), Gestão de integração (ETL, EAI, etc), Gestão de informação (DW/Mart/ODS, servidores OLap, etc), Entrega de Informação (Portal, Painel de instrumentos, análise/cliente OLAP, etc). Aqui está um resumo:
Open Source BI/DW Projects
BI e análise
- BEE - http://bee.insightstrategy.cz/en/index.html
- BIRT - http://www.eclipse.org/birt
Jesperssoft. http://www.jaspersoft.com- MarvelIT - http://www.marvelit.com/dash.html
- OpenI – http://openi.sourceforge.net
- relatórios abertos - http://oreports.com
- Laranja - http://www.ailab.si/orange
- Palo - http://www.palo.net
Pentaho - http://www.pentaho.com- R - http://www.r-project.org
SpagoBI - http://spagobi.eng.it Weka - http://www.cs.waikato.ac.nz / ~ml/index.html VitalSigns - http://vitalsigns.sourceforge.net/Bases de Dados
- http://greenplum.org (bizgres)
- http://www.ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
Integração
- Apatar - http://www.apatar.com
- CloverETL - http://cloveretl.berlios.de/
- JitterBit - http://www.jitterbit.com/
- KETL - http://www.ketl.org
Polvo - http://www.enhydra.org/tech/octopus/index.html- OSDQ - http://sourceforge.net/projects/dataquality
Pentaho - http://www.pentaho.com- Chapéu Vermelho - http://www.redhat.com
Saga.M31 Galaxy - http://galaxy.sagadc.com- Talend - http://www.talend.com
- SnapLogic - http://www.snaplogic.com
Recomendo navegar apresentacao. Bom.
Uma pilha de datawarehouse (ou conjunto) normalmente consiste em três camadas. Estes são normalmente referenciados como ETL
(carregamento), Database
& Reporting
(interface). Além disso, existem ferramentas um pouco mais avançadas para o desempenho e necessidades de especialistas. Estes consistem em Cubes
e Statistical Analysis Tools
.
Quanto às especificidades -
1 - ETL
O carregamento de dados pode ser alcançado por ferramentas de código aberto como a integração de dados do Pentaho ou Talend (uma extensão do eclipse). Eu sugeriria pesquisar no Google "open source etl" para adaptar a solução para as suas necessidades específicas.
2 - DB
Vai precisar de uma base de dados relacional. Os dois jogadores de código aberto mais proeminentes são PostgreSQL (usado por Stack Overflow) e MySQL. Enquanto MySQL tem uma base de Usuários maior, Postgres está ganhando mais popularidade desde que implementou várias características cruciais que estavam faltando em versões anteriores.3 - apresentação de relatórios
Pentaho offer reporting platform. Assim como BIRT (outra extensão do eclipse). Mais uma vez, o Google é seu amigo para comparações específicas. Note que quando você escolher o Pentaho tanto para o ETL quanto para as ferramentas de Relatórios, você provavelmente irá desfrutar de uma melhor integração. Você também mencionou Mondrian, que é uma ferramenta para gerar consultas MDX sobre um RDBMS. MDX é a linguagem padrão para questionar cubos. Neste momento, assumindo que está a começar do zero, recomendo a criação das duas primeiras camadas do data warehouse - ETL & DB. Você pode adicionar mais tarde qualquer número de ferramentas de relatório acima.Esta é outra questão semelhante 20 mil milhões de linhas / mês-Hbase / Hive / Greenplum / o quê?
A parte mais relevante:
Não consigo enfatizar isto o suficiente: obter algo que toque bem com ferramentas de reportagem.
.
A colmeia ou a HBase puseram-te no negócio de construir uma fachada personalizada, o que não queres mesmo, a não ser que estejas feliz por passar os próximos 5 anos a escrever relatórios personalizados em Jiboia.
Expandindo o que Pascal escreveu:
Servidor OLAP: Mondrian
Tabelas de articulação de AJAX: Saiku
OLAP schema designer: Pentaho Schema WorkbenchDesenhador de agregados OLAP: desenhador de agregação Pentaho
ETL: Chaleira Pentaho
Desenhador de relatórios Pentaho Armazém De Dados Colunares: MonetDBExtracção De Dados: RapidMiner
Qualidade dos dados e Perfil - http://sourceforge.net/projects/dataquality/
Também tem ligação de Colmeias e bancada de dados para criar dados da vida real.