Instalar NiFi (código aberto) nos díodos de dados de um cluster Hadoop existente

se tiver 10 datanodes num cluster Hadoop existente, poderá instalar NiFi em 4 ou 6 datanodes?

o principal objectivo da NiFi seria carregar diariamente dados de RDBMS para HDFS, volume elevado.

Os Datanodes seriam configurados com RAM altas, digamos 100GB. Seria usado um conjunto externo de 3 nós de tratadores de Zoológico.

    Há alguma grande preocupação com esta abordagem?
  • faz mais sentido instalar NiFi em cada datanode, então, 10?
  • Há algum problema em ter um grande grupo de 10 nós nifi?
  • alguma configuração de NiFi entra em conflito com a configuração de Hadoop?

editar: a usar actualmente a versão 2. 6. 5 do Hortonworks e o código aberto NiFi 1.9.2

Author: bp2010, 2019-10-04

2 answers

Há alguma grande preocupação com esta abordagem?

Cloudera Data platform is integrated with Cloudera Dataflow which on based on Apache NiFi, so integration should not be a concern.

Faz mais sentido instalar NiFi em cada datanode, então 10?
Depende do tráfego que espera, mas eu consideraria o NiFi um serviço independente, como o Kafka, Guardião do Zoo... então um grupo de três seria um grande começar e talvez aumentar, se necessário. Não é necessário iniciar todos os DataNodes. É ok compartilhar estes serviços com DataNodes, apenas certifique-se de recursos são alocados corretamente (núcleos, memória, armazenamento...- isto é mais fácil com Cloudera.
Há algum problema em ter um grande grupo de 10 nós nifi?

Mais informações sobre a escala em 6) Nifi Clusters escalam linearmente . Você deve ter muito tráfego para passar por 10 nós.

Alguns As melhores práticas de configuração do NiFi entram em conflito com o Hadoop config?

Isso depende de como você configurá-lo. Eu aconselharia usar Cloudera para ambos, que é muito testado para trabalhar em conjunto. Você não pode acabar com versões mais recentes para seus serviços, mas pelo menos você tem uma maior confiabilidade.

 1
Author: Horatiu Jeflea, 2019-10-07 07:37:22

Mesmo que tenha um aglomerado HDP 2.6.5 existente, ou talvez até agora tenha actualizado para HDP 3 ou mesmo para a sua CDP sucessora, pode usar a solução Hortonworks/Cloudera Nifi através da sua consola de gestão. Então, se você usa atualmente o Ambari (ou seu equivalente Gestor de Cloudera) a maneira recomendada para instalar o Nifi é através disso.

Será chamado de fluxo de dados Hortonworks ou fluxo de dados Cloudera, respectivamente.

Em relação à outra parte da sua pergunta: Normalmente, recomenda-se instalar Nifi em nós dedicados, e 10 nós é provável que sobrekill, se você não tem certeza.

[[1]} Aqui estão algumas informações sobre dimensionamento de sua implantação Nifi (note que Cloudera e Hortonworks se fundiram, então embora o site é chamado Cloudera esta página é realmente escrita com um aglomerado HDP em mente, é claro que isso não afeta o dimensionamento).

Https://docs.cloudera.com/HDPDocuments/HDF3/HDF-3.1.1/bk_planning-your-deployment/content/ch_hardware-sizing.html

Cheio divulgação: sou empregado da Cloudera (anteriormente Hortonworks)

 0
Author: Dennis Jaheruddin, 2020-07-16 11:33:48