R valores em falta das séries cronológicas
Estava a trabalhar com um conjunto de dados de séries cronológicas com dados horários. Os dados continham alguns valores em falta, então eu tentei criar um dataframe (time_seq) com o valor de tempo correto e fazer uma junção com os dados originais para que os valores em falta se tornem 'NA'.
> data
date value
7980 2015-03-30 20:00:00 78389
7981 2015-03-30 21:00:00 72622
7982 2015-03-30 22:00:00 65240
7983 2015-03-30 23:00:00 47795
7984 2015-03-31 08:00:00 37455
7985 2015-03-31 09:00:00 70695
7986 2015-03-31 10:00:00 68444
//converting the date in the data to POSIXct format.
> data$date <- format.POSIXct(data$date,'%Y-%m-%d %H:%M:%S')
// creating a dataframe with the correct sequence of dates.
> time_seq <- seq(from = as.POSIXct("2014-05-01 00:00:00"),
to = as.POSIXct("2015-04-30 23:00:00"), by = "hour")
> df <- data.frame(date=time_seq)
> df
date
8013 2015-03-30 20:00:00
8014 2015-03-30 21:00:00
8015 2015-03-30 22:00:00
8016 2015-03-30 23:00:00
8017 2015-03-31 00:00:00
8018 2015-03-31 01:00:00
8019 2015-03-31 02:00:00
8020 2015-03-31 03:00:00
8021 2015-03-31 04:00:00
8022 2015-03-31 05:00:00
8023 2015-03-31 06:00:00
8024 2015-03-31 07:00:00
// merging with the original data
> a <- merge(data,df, x.by = data$date, y.by = df$date ,all=TRUE)
> a
date value
4005 2014-07-23 07:00:00 37003
4006 2014-07-23 07:30:00 NA
4007 2014-07-23 08:00:00 37216
4008 2014-07-23 08:30:00 NA
os valores que recebo após a fusão são incorrectos e contêm valores a meia hora. Qual seria a abordagem correcta para resolver este problema?
porque é que o resultado da fusão é em intervalos de 30 minutos quando os meus dois dataframes são de hora a hora?
PS:analisei esta questão: a forma mais rápida de preencher as datas em falta para os dados.tabela e seguiu os passos, mas não ajudou.
2
1 answers
Você pode usar o pacote padr
para resolver este problema.
library(padr)
library(dplyr) #for the pipe operator
data %>%
pad() %>%
fill_by_value()
0
Author: Edwin, 2019-07-14 19:10:11