Apache PIG-GROUP BY

estou a tentar alcançar a funcionalidade abaixo no porco. Tenho um conjunto de registos de amostras como este. Note ... de e sexo. Este conjunto de dados é enorme, por isso esta abordagem está a demorar muito tempo. Há uma abordagem melhor?

Onde devia estar o hadoop.tmp.prontos? Central.xml ou hdfs-site.xml?

Estou a perguntar sobre o Hadoop 2.x series. Há conselhos contraditórios sobre isto na Internet. Como neste casoonde ele ... isso responde onde é mencionado que hadoop.tmp.dir seja definido em hdfs-site.xml. Qual é o lugar certo para colocá-lo?

Há a.NET equivalente ao Apache Hadoop? [fechado]

Fechado. ... cura do ... Hadoop.net ou NHadoop ou o Projecto. Net que abraça a abordagem do Google MapReduce . Alguém sabe de algum?

Como é que o Hadoop efectua separações de entrada?

Esta é uma questão conceptual que envolve Hadoop/HDFS. Digamos que tem um ficheiro com mil milhões de li ... ficamente, cada vez que a função map() é chamada quais são os seus parâmetros Key key and Value val? Obrigado., Deepak

Qual é a melhor maneira de começar e parar o ecossistema hadoop, com linha de comando?

Vejo que há várias formas de começarmos o ecossistema hadoop. start-all.sh & stop-all.sh Que dizem ... de and yarn-deamon.sh resourcemanager editar: acho que tem de haver alguns casos específicos de uso para cada comando.

O que deveria ser hadoop.tmp.dir?

o Hadoop tem o parâmetro de configuração hadoop.tmp.dir que, de acordo com a documentação, é ` ' uma bas ... ente o mesmo caminho criado em HDFS. isto significa que hadoop.tmp.dir se refere a uma localização temporária emHDFS ?

Execução especulativa da tarefa Hadoop

No documento MapReduce do Google, eles têm uma tarefa de backup, eu acho que é a mesma coisa com a taref ... nas começa a partir de onde a tarefa mais antiga chegou(se sim, ele tem que copiar todo o status intermediário e dados?)

Diferença entre a redução do mapa do Hadoop e a redução do mapa do Google

Qual é a diferença entre a redução do mapa do Hadoop e a redução do mapa do Google? Será Que a Hadoop apenas fornece padronização para a redução de mapas e outros? o que mais está entre as diferenças.

O comando Hadoop não foi encontrado

instalei e configurei o hadoop numa máquina linux .Agora estou a tentar analisar uma amostra, Sr. job.I ... nd not found Sou novo em hadoop.alguém me ajude, por favor .Eu também estou postando a imagem do que eu estou tentando

Hadoop Vs Data Lake

Ouvi um novo Termo Data Lake . Pesquisei no Google e consegui isso. um lago de dados é um repositório ... lake. O que é a diferença entre ambos. Se são iguais, é por isso que este termo Surge. Ou como definir um lago de dados.

- A processar o JSON.

estou a tentar obter alguns valores de JSON aninhado para milhões de linhas (5 TB+ table). Qual é a man ... a é a melhor função. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-getjsonobject

Como converter o ficheiro sas7bdat para csv?

quero converter A.sas7bdat file to A.formato csv / txt para que eu possa carregá-lo para uma tabela de colmeias. Estou a receber .ficheiro sas7bdat de um servidor externo e não tem SAS na minha máquina.

o sparkSession/sparkContext não consegue obter a configuração do hadoop

Estou a rodar a spark 2, a colmeia, o hadoop na máquina local, e quero usar a spark sql para ler os dado ... , porque é que o sparkSession/sparkContext inicial não obteve a configuração correcta? Como posso consertá-lo? Obrigado!

Alternativas distribuídas ao hadoop

Tenho uma pergunta curiosa. Quais são algumas distribuídas e escaláveis? alternativas ao hadoop. Estou ... s que é distribuído, tolerante a culpa e scalable.Is Ali qualquer apt soluções ? As sugestões são bem-vindas. Obrigado.

Diferença entre a arquitectura típica do Hadoop e a arquitectura MapR

Eu sei que {[[0]} é baseado na arquitectura Mestre / Escravo HDFS trabalha com NameNodes e DataNodes ... Estou um pouco confuso, qualquer um pode dizer-me qual é a diferença entre usar apenas o Hadoop e usá-lo com o MapR !

Como obter todas as definições de tabelas em uma base de dados na colmeia?

Estou à procura de todas as definições de tabelas na colmeia. Eu sei que para a definição de uma única ... la em megastore semelhante a Information_Schema em mysql ou existe um comando para obter todas as definições de tabela ?

Não foi possível alterar as permissões de escrita para a pasta hdfs

estou a tentar copiar o ficheiro de texto para a localização do hdfs. Estou a enfrentar problemas de ac ... ajude-me Como posso alterar os direitos de leitura completa e escrita para todos os utilizadores acederem à pasta HDFS.

A indicar o URL do repositório maven para obter a resolução das dependências?

Estou a tentar perceber como a maven descarrega os binários dos repositórios. por exemplo, tenho a seg ... eve ser o url de base para cada dependência que temos de colocar o URL completo. Alguém me pode ajudar a entender isto?

"hdfs: command not found" when trying to execute command "hdfs namenode-format" during hadoop installation

declaração de erro completa: No command 'hdfs' found, did you mean: Command 'hfs' from package 'hfsutils-tcltk' (universe) Command 'hdfls' from package 'hdf4-tools' (universe) hdfs: command not found

O código do nome não está a ser iniciado

Estava a usar o Hadoop num modo pseudo-distribuído e estava tudo a funcionar bem. Mas depois tive de reiniciar o computa ... e pode dizer a possível razão deste problema? Ou estou a fazer algo de errado? tentei ambos {[[0]} e bin/start-dfs.sh.