Quais são os casos de uso comum da colmeia?

Sou novo na colmeia, não sei como as empresas usam a colmeia. Deixa-me dar-te um cenário e ver se estou conceptualmente correcto sobre o uso do Hive.

Digamos que a minha empresa quer manter alguns ficheiros de registo de servidores web e ser capaz de procurar e analisar os registos. Então, eu crio uma tabela colunas das quais correspondem às colunas no arquivo de log. Depois carrego o ficheiro de registo na mesa. Agora, posso começar a consultar os dados. Então, como os dados chegam em datas futuras, Eu apenas ... continue adicionando os dados a esta tabela, e assim eu sempre tenho meus arquivos de log como uma tabela em Colmeia que eu posso pesquisar e analisar.

Esse cenário está acima de um uso comum? E se for, então como eu continuo adicionando novos arquivos de log para a mesa? Tenho de continuar a adicioná-los manualmente todos os dias?

Author: Jordan Fincher, 2017-10-15

1 answers

Você Pode usar a colmeia, para análise através de conjuntos de dados estáticos, mas se tiver registos de streaming, eu realmente não sugeriria a colmeia para isto. Não é um motor de busca e vai levar minutos apenas para encontrar quaisquer dados razoáveis que você está procurando.

HBase provavelmente seria uma alternativa melhor se você deve permanecer dentro do ecossistema Hadoop. (Colmeia pode consultar Hbase)

Utilize o Splunk ou as alternativas de código aberto do Solr / Elasticsearch / Graylog se quiser ferramentas razoáveis para análise de log.

Mas para responder às suas perguntas

Como é que continuo a adicionar novos ficheiros de Registo à tabela? Tenho de continuar a adicioná-los manualmente todos os dias?

Utilize uma tabela {[[0]} sobre uma localização HDFS para os seus registos. Use o Flume para enviar os dados de registo para essa localização (ou envie os seus registos para Kafka, e de Kafka para HDFS, bem como um sistema de pesquisa/análise)

Só precisa de actualizar a tabela se estiver a adicionar partições de datas (que deverá porque é assim que você começa mais rápido Colmeia consultas). Você usaria MSCK REPAIR TABLE para detectar partições em falta em HDFS. Ou correr ALTER TABLE ADD PARTITION dentro de um horário. Nota: a ligação HDFS do confluente com o Kafka irá criar automaticamente partições de tabelas de colmeias para si

Se tiver de usar a colmeia, poderá melhorar melhor as consultas se converter os dados no formato ORC ou Parquet

 2
Author: cricket_007, 2018-02-06 14:17:44