O Apache spark pode fugir sem o hadoop?

Question

O Apache spark pode fugir sem o hadoop?

existem dependências entre Faísca e Hadoop?

Se não, vou sentir falta de alguma coisa quando correr. faísca Sem Hadoop?

56

hadoop mapreduce apache-spark amazon-s3 mesos

Author: Backtrack, 2015-08-15

Source

8 answers

Spark é um motor de computação distribuído em memória.

Hadoop é uma estrutura de armazenamento distribuído (HDFS) e processamento distribuído (FIOS).

faísca pode funcionar com ou sem componentes Hadoop (HDFS / fio)

Armazenagem Distribuída:

Uma Vez Que a faísca {[3] } não tem o seu próprio sistema de armazenamento distribuído, tem de depender de um destes sistemas de armazenamento para distribuição computacao.

S3 – tarefas em lote não urgentes. S3 encaixa casos de uso muito específicos quando a localidade de dados não é crítica.

Cassandra é perfeita para transmitir a análise de dados e um exagero para tarefas em lote.

HDFS - grande apto para tarefas em lote sem comprometer a localização dos dados.

transformação distribuída:

Você pode executar faísca em três modos diferentes: autônomo, fio e mesa

Veja a pergunta SE abaixo para uma explicação detalhada sobre armazenamento distribuído e processamento distribuído.

Que tipo de aglomerado devo escolher para faísca?

63

Author: Ravindra babu, 2017-05-23 12:26:35

Por defeito, a faísca não tem mecanismo de armazenamento.

Para armazenar dados, precisa de um sistema de ficheiros rápido e escalável. Você pode usar S3 ou HDFS ou qualquer outro sistema de arquivos. Hadoop é uma opção econômica devido ao baixo custo.

Além disso, se usar Tachyon, irá aumentar o desempenho com o Hadoop. É altamente recomendado o Hadoop para o processamentoda faísca apache .

17

Author: Venu A Positive, 2017-07-13 20:45:57

Sim, a faísca pode correr sem o hadoop. Todas as principais características spark vão continuar a funcionar, mas você vai perder coisas como distribuir facilmente todos os seus arquivos (código, bem como dados) para todos os nós no cluster via hdfs, etc.

3

Author: quantum_random, 2015-08-15 07:28:46

Sim, podes instalar a faísca sem o Hadoop. Isso seria um pouco complicado. Você pode indicar Arnon link para usar parquet para configurar em S3 como armazenamento de dados. http://arnon.me/2015/08/spark-parquet-s3/

Spark é apenas fazer o processamento e usa memória dinâmica para executar a tarefa, mas para armazenar os dados você precisa de algum sistema de armazenamento de dados. Aqui hadoop vem em papel com faísca, ele fornece o armazenamento para faísca. Mais uma razão para usar Hadoop com faísca é que eles estão abertos fonte e ambos podem integrar-se uns com os outros facilmente como comparar com outro sistema de armazenamento de dados. Para outro armazenamento como o S3, você deve ser complicado para configurá-lo como menção no link acima.

Mas o Hadoop também tem a sua unidade de processamento chamada Mapreduce.

Quer saber a diferença em ambos?

Confira este artigo: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

Acho que este artigo vai ajudá-lo a entender.

O que usar,
Quando utilizar e
Como usar !!!

2

Author: Abhijit Kumar, 2016-01-17 00:47:55

Como a documentação da faísca, a faísca pode correr sem o Hadoop.

Pode executá-lo como um modo independente sem qualquer gestor de recursos.

Mas se quiser executar na configuração multi-nó, precisa de um gestor de recursos como o YARN ou o Mesa e de um sistema de ficheiros distribuído como o HDFS,o S3, etc.

2

Author: user2359003, 2017-06-07 15:38:16

Sim, claro. Spark é um framework de computação independente. Hadoop é um sistema de armazenamento de distribuição(HDFS) com framework de computação MapReduce. Spark pode obter dados de HDFS, bem como qualquer outra fonte de dados, como o banco de dados tradicional(JDBC), kafka ou até mesmo disco local.

0

Author: ssnijik, 2015-08-18 15:12:26

Não. Requer uma instalação completa do Hadoop para começar a funcionar - https://issues.apache.org/jira/browse/SPARK-10944

-3

Author: user1391095, 2015-10-09 09:40:25

score 28 · Accepted Answer

A faísca pode funcionar sem o Hadoop, mas algumas das suas funcionalidades dependem do Código do Hadoop (por exemplo, manipulação de ficheiros Parquet). Estamos rodando faísca em Mesa e S3, que foi um pouco complicado de configurar, mas funciona muito bem uma vez feito (você pode ler um resumo do que precisava para configurá-lo corretamente Aqui).