Hadoop para o conjunto de dados de números de páginas do Wikipedia

eu quero construir um Hadoop-Job que basicamente toma o wikipedia pagecount-statistic como entrada e cria uma lista co ... Cluster, por isso alterar a tarefa ainda está bem Editar: Aqui está uma discussão semelhante que acabei de encontrar..