apache-spark

Desempenho da faísca para Scala vs Python

Prefiro Python a Scala. Mas, como Spark é nativamente escrito em Scala, eu estava esperando meu código para correr mais ... boa notícia para mim é que me deu uma boa motivação para fica com o Python. A má notícia é que não percebi bem porquê?

Como imprimir o conteúdo do RDD?

Estou a tentar imprimir o conteúdo de uma colecção na consola de faíscas. tenho um tipo: linesWithSessionId: org.apa ... [ 4] no mapa a :19 Como posso escrever o RDD para consolar ou gravá-lo em disco para que eu possa ver o seu conteúdo?

scala apache-spark

Como montar uma faísca nas janelas?

Estou a tentar configurar o Apache Spark nas janelas. Depois de procurar um pouco, entendo que o modo autônomo é o que ... página de download spark. Não tenho referências na web a isto. Um guia passo a passo para isso é altamente apreciado.

windows apache-spark

Concatenate columns in Apache Spark DataFrame

Como combinamos duas colunas num DataFrame Apache? Existe alguma função em Spark SQL que possamos usar?

sql dataframe apache-spark apache-spark-sql

Como verificar a versão Spark [fechado]

Quero ver a versão spark em cdh 5.7.0. Procurei na internet, mas não consegui entender. Ajudar. Obrigado.

hadoop apache-spark cloudera bigdata

Como escrever testes de unidade em Spark 2.0+?

Tenho tentado encontrar uma forma razoável de testar a estrutura de testes JUnit. Embora pareça haver bons exemplos para ... o que está a ser carregado exista ou não; numa SparkSession devidamente configurada, será lançado um erro mais sensato .

unit-testing scala apache-spark junit apache-spark-sql

O que é RDD em faísca

A definição diz: A RDD é uma colecção distribuída imutável de objectos Não percebo bem o que significa. É como o ... or Estou realmente confuso por entender o RDD em geral e em relação à faísca e à hadoop. Alguém me ajude, por favor.

hadoop scala apache-spark rdd

O que é o Spark Job?

Já fiz a instalação da faísca e executei algumas testas a definir os nós mestre e trabalhador. Dito isto, eu tenho uma c ... aísca porque eu já tentei. Embora as perguntas pareçam ingénuas, mas ainda assim Preciso de mais clareza na compreensão.

apache-spark batch-processing job-scheduling

O que significa "local [*]" em faísca?

Encontrei um código para começar a disparar localmente com: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf) O que significa o [*]?

scala apache-spark

SparkSQL vs colmeia em Spark-Difference e prós e contras?

o SparkSQL CLI utiliza internamente o HiveQL e, no caso do Hive on spark(Colmeia-7292) , o hive usa o spark como motor d ... lançar um pouco mais de luz, como exatamente estes dois cenários são diferentes e prós e contras de ambas as abordagens?

hadoop hive apache-spark

Gerente Independente Vs Fios Vs. Mesos

em 3 nós Spark/Hadoop cluster que scheduler(Gestor) irá funcionar de forma eficiente? Atualmente Eu estou usando Gerenc ... á correndo 10X mais lento do que Gerente autônomo. Posso ajudar? Detalhes Do Agregado: Faísca 1.2.1 e Hadoop 2.7.1

hadoop apache-spark yarn mesos

Como salvar um DataFrame spark como csv em disco?

por exemplo, o resultado disto: df.filter("project = 'en'").select("title","count").groupBy("title").sum() devolveria uma matriz. Como gravar um ficheiro csv em disco ?

scala apache-spark apache-spark-sql

O Apache spark pode fugir sem o hadoop?

existem dependências entre Faísca e Hadoop? Se não, vou sentir falta de alguma coisa quando correr. faísca Sem Hadoop?

hadoop mapreduce apache-spark amazon-s3 mesos

Como obter uma amostra com um tamanho exato de amostra em Spark RDD?

porque é que a função rdd.sample() na Spark RDD devolve um número diferente de elementos, mesmo que o parâmetro da frac ... s. Alguém me pode dizer Como posso obter uma amostra com o tamanho da amostra exactamente igual a 1000? Muito obrigado.

apache-spark rdd sample

Onde você precisa usar lit () em Pyspark SQL?

estou a tentar perceber onde é que precisas de usar um valor lit, que é definido como a literal column na documentação. ... ste um lugar onde eu possa aprender melhor as regras duras e rápidas de quando usar lit e possivelmente col como então?

python apache-spark pyspark

Valor da pasta CONF Hadoop do agregado

configurei um aglomerado(fio) usando Ambari com 3 VMs como hospedeiros. Onde posso encontrar o valor do HADOOP_ CONF_D ... also be `yarn-client` for client mode --executor-memory 20G \ --num-executors 50 \ /path/to/examples.jar \ 1000

apache-spark yarn

Conteúdo de saída do DStream em Scala Apache Spark

abaixo do Código Spark não parece efectuar qualquer operação num ficheiro example.txt val conf = new org.apache.spark. ... ? actualização 2: Talvez isto esteja relacionado com o facto de eu estar a correr este código no ambiente do Windows?

scala apache-spark

Como configurar o Hive para usar o Spark?

Tenho um problema em usar a colmeia com faísca. Instalei um único nó HDP 2.1 (Hadoop 2.4) via Ambari no meu CentOS 6.5. ... meia use faísca em vez de MapReduce? Há outras formas de o mudar? (Eu já tentei mudá-lo via ambari e no hive-site.xml)

hadoop hive mapreduce apache-spark

Como posso usar a base de testes de faísca com o Maven?

Gostava de descobrir como testar o mesmo código de ignição. Pesquisei no Google e encontrei a base de faísca. Bem, agora ... s parece que não foi executada. Porquê? Como eu disse, é apenas o mínimo exmaple e não depende do meu principal codigo.

scala apache-spark maven

Como esvaziar o lixo no hadoop quando a quota de espaços de nomes for excedida?

Quero começar um trabalho de streaming hadoop, mas não se queixa.: 15/05/19 23:17:34 ERROR streaming.StreamJob: Error La ... fault: Created trash checkpoint: /user/myname/.Trash/150519231233 Mas continuo a ter o erro original. O que devo fazer?

command-line hadoop linux apache-spark hdfs