Instalar NiFi (código aberto) nos díodos de dados de um cluster Hadoop existente
se tiver 10 datanodes num cluster Hadoop existente, poderá instalar NiFi em 4 ou 6 datanodes?
o principal objectivo da NiFi seria carregar diariamente dados de RDBMS para HDFS, volume elevado.
Os Datanodes seriam configurados com RAM altas, digamos 100GB. Seria usado um conjunto externo de 3 nós de tratadores de Zoológico.
-
Há alguma grande preocupação com esta abordagem?
- faz mais sentido instalar NiFi em cada datanode, então, 10? Há algum problema em ter um grande grupo de 10 nós nifi?
- alguma configuração de NiFi entra em conflito com a configuração de Hadoop?
editar: a usar actualmente a versão 2. 6. 5 do Hortonworks e o código aberto NiFi 1.9.2
2 answers
Há alguma grande preocupação com esta abordagem?
Cloudera Data platform is integrated with Cloudera Dataflow which on based on Apache NiFi, so integration should not be a concern.
Faz mais sentido instalar NiFi em cada datanode, então 10?Depende do tráfego que espera, mas eu consideraria o NiFi um serviço independente, como o Kafka, Guardião do Zoo... então um grupo de três seria um grande começar e talvez aumentar, se necessário. Não é necessário iniciar todos os DataNodes. É ok compartilhar estes serviços com DataNodes, apenas certifique-se de recursos são alocados corretamente (núcleos, memória, armazenamento...- isto é mais fácil com Cloudera.
Há algum problema em ter um grande grupo de 10 nós nifi?
Mais informações sobre a escala em 6) Nifi Clusters escalam linearmente . Você deve ter muito tráfego para passar por 10 nós.
Alguns As melhores práticas de configuração do NiFi entram em conflito com o Hadoop config?
Isso depende de como você configurá-lo. Eu aconselharia usar Cloudera para ambos, que é muito testado para trabalhar em conjunto. Você não pode acabar com versões mais recentes para seus serviços, mas pelo menos você tem uma maior confiabilidade.
Mesmo que tenha um aglomerado HDP 2.6.5 existente, ou talvez até agora tenha actualizado para HDP 3 ou mesmo para a sua CDP sucessora, pode usar a solução Hortonworks/Cloudera Nifi através da sua consola de gestão. Então, se você usa atualmente o Ambari (ou seu equivalente Gestor de Cloudera) a maneira recomendada para instalar o Nifi é através disso.
Será chamado de fluxo de dados Hortonworks ou fluxo de dados Cloudera, respectivamente.Em relação à outra parte da sua pergunta: Normalmente, recomenda-se instalar Nifi em nós dedicados, e 10 nós é provável que sobrekill, se você não tem certeza.
[[1]} Aqui estão algumas informações sobre dimensionamento de sua implantação Nifi (note que Cloudera e Hortonworks se fundiram, então embora o site é chamado Cloudera esta página é realmente escrita com um aglomerado HDP em mente, é claro que isso não afeta o dimensionamento).Cheio divulgação: sou empregado da Cloudera (anteriormente Hortonworks)