Quais são os casos de uso comum da colmeia?
1 answers
Você Pode usar a colmeia, para análise através de conjuntos de dados estáticos, mas se tiver registos de streaming, eu realmente não sugeriria a colmeia para isto. Não é um motor de busca e vai levar minutos apenas para encontrar quaisquer dados razoáveis que você está procurando.
HBase provavelmente seria uma alternativa melhor se você deve permanecer dentro do ecossistema Hadoop. (Colmeia pode consultar Hbase)
Utilize o Splunk ou as alternativas de código aberto do Solr / Elasticsearch / Graylog se quiser ferramentas razoáveis para análise de log.
Mas para responder às suas perguntas
Como é que continuo a adicionar novos ficheiros de Registo à tabela? Tenho de continuar a adicioná-los manualmente todos os dias?
Utilize uma tabela {[[0]} sobre uma localização HDFS para os seus registos. Use o Flume para enviar os dados de registo para essa localização (ou envie os seus registos para Kafka, e de Kafka para HDFS, bem como um sistema de pesquisa/análise)
Só precisa de actualizar a tabela se estiver a adicionar partições de datas (que deverá porque é assim que você começa mais rápido Colmeia consultas). Você usaria MSCK REPAIR TABLE
para detectar partições em falta em HDFS. Ou correr ALTER TABLE ADD PARTITION
dentro de um horário. Nota: a ligação HDFS do confluente com o Kafka irá criar automaticamente partições de tabelas de colmeias para si
Se tiver de usar a colmeia, poderá melhorar melhor as consultas se converter os dados no formato ORC ou Parquet