Como enviar manualmente o offset no streaming directo do Kafka Spark?
li sobre Kafka DirectStreams. Diz que para a recuperação robusta de falhas no modo de fluxo direto, o ponto de controle de faísca deve ser ativado, que armazena as compensações juntamente com os pontos de controle. Mas a gestão de compensação é feita internamente (definindo os parâmetros de configuração do Kafka como [[[[0]}]). Ele não fala de como (ou se) podemos personalizar compensações de commit (uma vez que tenhamos carregado um banco de dados, por exemplo). Em outras palavras, podemos definir "auto.commit.enable"
Para falso e gerenciar as compensações (não ao contrário de uma conexão DB) nós mesmos?
qualquer orientação/ajuda é muito apreciada.
1 answers
Spark-kafka-achieving-zero-data-loss
Mais,
O artigo sugere usar o cliente do Zoo directamente, que pode ser substituído por algo como KafkaSimpleConsumer também. A vantagem de usar o Zookeper/KafkaSimpleConsumer é as ferramentas de monitoramento que dependem do deslocamento guardado do Zookeper. Além disso, a informação também pode ser salvo em HDFS ou qualquer outro serviço confiável.