Como obter os nomes dos trabalhos do hadoop actualmente em execução?

Question

Como obter os nomes dos trabalhos do hadoop actualmente em execução?

Preciso da lista de nomes de funções que estão a correr, mas dá-me uma lista de empregados.

Há alguma forma de obter os nomes dos trabalhos em curso? Há alguma forma de obter os nomes dos empregados?

15

hadoop

Author: slm, 2011-05-05

Source

8 answers

score 26 · Answer 1

Tive de fazer isto várias vezes, por isso inventei a seguinte linha de comando que podes pôr num guião algures e reutilizar. Imprime o jobid seguido pelo nome do trabalho.

hadoop job -list | egrep '^job' | awk '{print $1}' | xargs -n 1 -I {} sh -c "hadoop job -status {} | egrep '^tracking' | awk '{print \$3}'" | xargs -n 1 -I{} sh -c "echo -n {} | sed 's/.*jobid=//'; echo -n ' ';curl -s -XGET {} | grep 'Job Name' | sed 's/.* //' | sed 's/<br>//'"

score 8 · Answer 2

Se utilizar Fio Hadoop, não utilize mapred job -list (ou a sua versão depreciada hadoop job -list) apenas faça

yarn application -appStates RUNNING -list

Isso também imprime o nome da aplicação / tarefa. Para as aplicações mapreduce você pode obter o JobId correspondente substituindo o prefixo application do Application-Id por job.

score 3 · Answer 3

Modificando a escrita de AnthonyF, você pode usar o seguinte no fio:

mapred job -list 2> /dev/null | egrep '^\sjob' | awk '{print $1}' | xargs -n 1 -I {} sh -c "mapred job -status {} 2>/dev/null | egrep 'Job File' | awk '{print \$3}'" | xargs -n 1 -I{} sh -c "hadoop fs -cat {} 2>/dev/null | egrep 'mapreduce.job.name' | sed 's/.*<value>//' | sed 's/<\/value>.*//'"

score 1 · Answer 4

Se o fizer {[1] } irá obter um URL de localização no resultado. Ir a essa URL lhe dará a página de rastreamento, que tem o nome

Job Name: <job name here>

O comando -status também dá um ficheiro, que também pode ser visto a partir do URL de localização. Neste arquivo está um mapred.job.name que tem o nome da tarefa.

Não encontrei maneira de aceder ao nome do trabalho a partir da linha de comando. Para não dizer que não há... mas não foi encontrado por mim. :)

O ficheiro de localização e xml são provavelmente as suas melhores opções para obter o nome do trabalho.

score 0 · Answer 5

Pode encontrar a informação em JobTracker UI

Podes ver

Jobid
Priority    
User
Name of the job
State of the job whether it succeed or failed
Start Time  
Finish Time 
Map % Complete  
Reduce % Complete etc

Informação

score 0 · Answer 6

Apenas no caso de alguém interessado na última consulta para obter o nome do trabalho: -). Comando Pirooz Modificado -

Mapred trabalho -lista 2> /dev/null | egrep '^de trabalho' | awk '{print $1}' | xargs -n 1 -I {} sh -c "mapred trabalho -estado {} 2>/dev/null | egrep 'Arquivo de Trabalho'" | awk '{print $3}' | xargs -n 1 -I{} sh -c "hadoop fs -cat {} 2>/dev/null" | egrep 'mapreduce.trabalho.o nome' | awk -F"" '{print $2}' | awk -F "" '{print $1}'

score 0 · Answer 7

Eu precisava de ver a história, por isso mudei mapred job -list para mapred job -list all....

Acabei por adicionar um -L ao comando curl, por isso o bloco era:

curl -s -L -XGET {}

Isso permite redirecionamento, como se o trabalho fosse aposentado e na história do trabalho. Também descobri que é o JobName no HTML histórico, por isso mudei o grep:

grep 'Job.*Name'

Mais, claro, a mudança hadoop para mapred. Aqui está o comando completo:

mapred job -list all | egrep '^job' | awk '{print $1}' | xargs -n 1 -I {} sh -c "mapred job -status {} | egrep '^tracking' | awk '{print \$3}'" | xargs -n 1 -I{} sh -c "echo -n {} | sed 's/.*jobid=//'; echo -n ' ';curl -s -L -XGET {} | grep 'Job.*Name' | sed 's/.* //' | sed 's/<br>//'"

(Eu também mudei em torno do primeiro grep de modo que eu era apenas a olhar para um determinado nome de utilizador....MMMV)

score -1 · Answer 8

Escrevendo " jps " no seu terminal .

-1

Author: mohamus, 2014-06-10 12:30:22