Dumbo mapreduce para hadoop

Estou a tentar executar um comando Dumbo MapReduce no grupo hadoop, mas a obter o seguinte erro.

15/03/02 17:55:28 erro na transmissão.StreamJob: trabalho não bem sucedido. Erro: NA 15/03/02 17: 55: 28 INFO streaming.KillJob... O Comando De Transmissão Falhou!

Parece que preciso de indicar o caminho para o jarro de transmissão do Hadoop. Como posso encontrar isso e o que é Hadoop streaming jar?

o meu comando dumbo é o seguinte:

início do Dumbo test_dumbo6.py -hadoop. /apps/ hadoop /- input/storage/user/jj / json.log-output ipcounts2

Author: Javad, 2015-03-02

1 answers

Doc na transmissão de Hadoop: http://hadoop.apache.org/docs/r1.2.1/streaming.html

O streaming de Hadoop é uma parte do núcleo do hadoop, pelo que deverá estar disponível na pasta $Hadoop_ Home/lib.

Esta biblioteca pode ser adicionada ao seu trabalho adicionando um argumento adicional:

-libjar <path_to_jar>
 0
Author: Venkat, 2015-03-02 18:42:38