SparkSQL vs colmeia em Spark-Difference e prós e contras?

Question

SparkSQL vs colmeia em Spark-Difference e prós e contras?

o SparkSQL CLI utiliza internamente o HiveQL e, no caso do Hive on spark(Colmeia-7292) , o hive usa o spark como motor de infra-estrutura. Alguém pode lançar um pouco mais de luz, como exatamente estes dois cenários são diferentes e prós e contras de ambas as abordagens?

21

hadoop hive apache-spark

Author: f_puras, 2015-07-24

Source

3 answers

score 13 · Answer 1

Quando o SparkSQL usa o Colmeia

O SparkSQL pode usar o HiveMetastore para obter os metadados dos dados armazenados em HDFS. Este metadado permite que o SparkSQL faça uma melhor otimização das consultas que executa. Aqui Spark é o processador de consulta.
Quando a colmeia usa faísca ver a entrada da JIRA: Colmeia-7292
Aqui os dados são acedidos através de faísca. E a colmeia é o processador de consultas. Então, temos todas as características dignas do núcleo de faísca para levar vantagem. Mas esta é uma grande melhoria para a colmeia e ainda está "em andamento" a partir de 2 de Fevereiro de 2016.
Existe uma terceira opção para processar dados com SparkSQL

Usar o SparkSQL sem usar o Colmeia. Aqui o SparkSQL não tem acesso aos metadados da colmeia Metastore. E as consultas são mais lentas. Eu fiz alguns testes de desempenho comparando as opções 1 e 3. Os resultados são Aqui.

score 9 · Answer 2

SparkSQL vs Spark API podes simplesmente imaginar que estás no mundo RDBMS:

SparkSQL é SQL puro, e Spark API é a linguagem para escrever procedimento armazenado

Hive on Spark é semelhante ao SparkSQL, é uma interface SQL pura que usa spark como motor de execução, SparkSQL usa a sintaxe de colmeia, então como uma linguagem, eu diria que eles são quase o mesmo. Mas o Hive on Spark tem um suporte muito melhor para as características da colmeia, especialmente o hibeserver2 e os elementos de segurança, o hive on Spark. características no SparkSQL é realmente buggy, há um hiveserver2 impl no SparkSQL, mas na versão mais recente (1.6.x), o hiveserver2 no SparkSQL não funciona mais com o argumento hivevar e hiveconf, e o nome de usuário para o login via jdbc também não funciona...

Ver https://issues.apache.org/jira/browse/SPARK-13983

Acho que o apoio da colmeia no projecto spark é uma prioridade muito baixa... Infelizmente, a integração de faíscas não é assim tão fácil. muitos conflitos de dependência... tais como https://issues.apache.org/jira/browse/HIVE-13301 E, quando estou a tentar a colmeia com a integração do spark, com o propósito de depurar, estou sempre a começar o CLI da colmeia assim.

export HADOOP_USER_CLASSPATH_FIRST=true
bin/hive --hiveconf hive.root.logger=DEBUG,console

A nossa exigência é usar o spark com o hibeserver2 de uma forma segura (com autenticação e autorização), actualmente o SparkSQL por si só não pode fornecer isto, estamos a usar o ranger/Sentinela + Colmeia no Spark. Espero que isto te ajude a ter uma ideia melhor. direção você deve ir.

score 0 · Answer 3

Aqui está a resposta relacionada que encontrei no oficial da colmeia.

0

Author: yuxh, 2017-03-09 03:52:34