Desempenho da faísca para Scala vs Python
Prefiro Python a Scala. Mas, como Spark é nativamente escrito em Scala, eu estava esperando meu código para correr mais ... boa notícia para mim é que me deu uma boa motivação para fica com o Python. A má notícia é que não percebi bem porquê?
O que é RDD em faísca
A definição diz:
A RDD é uma colecção distribuída imutável de objectos
Não percebo bem o que significa. É como o ... or
Estou realmente confuso por entender o RDD em geral e em relação à faísca e à hadoop.
Alguém me ajude, por favor.
Como obter uma amostra com um tamanho exato de amostra em Spark RDD?
porque é que a função rdd.sample() na Spark RDD devolve um número diferente de elementos, mesmo que o parâmetro da frac ... s. Alguém me pode dizer Como posso obter uma amostra com o tamanho da amostra exactamente igual a 1000? Muito obrigado.
Como é que o DAG trabalha debaixo das capas na RDD?
O papel de pesquisa de faísca (Spark research paper) ([6]} prescreveu um novo modelo de programação dist ... ted Datasets com Directed Acyclic Graph parece faltar neste papel.
Deveria aprender melhor investigando o código fonte?