O Apache spark pode fugir sem o hadoop?
existem dependências entre Faísca e Hadoop?
Se não, vou sentir falta de alguma coisa quando correr. faísca Sem Hadoop?8 answers
A faísca pode funcionar sem o Hadoop, mas algumas das suas funcionalidades dependem do Código do Hadoop (por exemplo, manipulação de ficheiros Parquet). Estamos rodando faísca em Mesa e S3, que foi um pouco complicado de configurar, mas funciona muito bem uma vez feito (você pode ler um resumo do que precisava para configurá-lo corretamente Aqui).
Spark é um motor de computação distribuído em memória.
Hadoop é uma estrutura de armazenamento distribuído (HDFS) e processamento distribuído (FIOS).
faísca pode funcionar com ou sem componentes Hadoop (HDFS / fio)
Armazenagem Distribuída:
Uma Vez Que a faísca {[3] } não tem o seu próprio sistema de armazenamento distribuído, tem de depender de um destes sistemas de armazenamento para distribuição computacao.
S3 – tarefas em lote não urgentes. S3 encaixa casos de uso muito específicos quando a localidade de dados não é crítica.
Cassandra é perfeita para transmitir a análise de dados e um exagero para tarefas em lote.
HDFS - grande apto para tarefas em lote sem comprometer a localização dos dados.
transformação distribuída:
Você pode executar faísca em três modos diferentes: autônomo, fio e mesa
Veja a pergunta SE abaixo para uma explicação detalhada sobre armazenamento distribuído e processamento distribuído.
Por defeito, a faísca não tem mecanismo de armazenamento.
Para armazenar dados, precisa de um sistema de ficheiros rápido e escalável. Você pode usar S3 ou HDFS ou qualquer outro sistema de arquivos. Hadoop é uma opção econômica devido ao baixo custo.Além disso, se usar Tachyon, irá aumentar o desempenho com o Hadoop. É altamente recomendado o Hadoop para o processamentoda faísca apache .
Spark é apenas fazer o processamento e usa memória dinâmica para executar a tarefa, mas para armazenar os dados você precisa de algum sistema de armazenamento de dados. Aqui hadoop vem em papel com faísca, ele fornece o armazenamento para faísca. Mais uma razão para usar Hadoop com faísca é que eles estão abertos fonte e ambos podem integrar-se uns com os outros facilmente como comparar com outro sistema de armazenamento de dados. Para outro armazenamento como o S3, você deve ser complicado para configurá-lo como menção no link acima.
Mas o Hadoop também tem a sua unidade de processamento chamada Mapreduce.Quer saber a diferença em ambos?
Confira este artigo: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83
Acho que este artigo vai ajudá-lo a entender.O que usar,
Quando utilizar e
Como usar !!!
Pode executá-lo como um modo independente sem qualquer gestor de recursos.
Mas se quiser executar na configuração multi-nó, precisa de um gestor de recursos como o YARN ou o Mesa e de um sistema de ficheiros distribuído como o HDFS,o S3, etc.