Desempenho da faísca para Scala vs Python

Prefiro Python a Scala. Mas, como Spark é nativamente escrito em Scala, eu estava esperando meu código para correr mais ... boa notícia para mim é que me deu uma boa motivação para fica com o Python. A má notícia é que não percebi bem porquê?

O que é RDD em faísca

A definição diz: A RDD é uma colecção distribuída imutável de objectos Não percebo bem o que significa. É como o ... or Estou realmente confuso por entender o RDD em geral e em relação à faísca e à hadoop. Alguém me ajude, por favor.

Como obter uma amostra com um tamanho exato de amostra em Spark RDD?

porque é que a função rdd.sample() na Spark RDD devolve um número diferente de elementos, mesmo que o parâmetro da frac ... s. Alguém me pode dizer Como posso obter uma amostra com o tamanho da amostra exactamente igual a 1000? Muito obrigado.

Como é que o DAG trabalha debaixo das capas na RDD?

O papel de pesquisa de faísca (Spark research paper) ([6]} prescreveu um novo modelo de programação dist ... ted Datasets com Directed Acyclic Graph parece faltar neste papel. Deveria aprender melhor investigando o código fonte?