概述
时间与空间是世界运行的主要维度,各行各业的运作都受到这两个维度的影响。其中,时间这个维度本身虽然只需要一列timestamp即可存储所有信息,不过通过进一步的时间维度挖掘,我们可以从中找到许多规律来丰富特征工程。甚至在很多场景下,路过其他维度采集困难的情况下,仅仅通过时间序列也可能实现较为精准的预测任务,由此可见时间维度对数据分析的重要性。R语言在时空数据挖掘方面已经有许多经典案例,比如CRAN上的TimeSeries主页、时间序列分析与R语言,本文将一起重温,如何通过lubridate
和百度API撸一遍时间维的挖掘。
时间挖掘关键R包
处理时间序列的关键R包有 lubridate
,xts
,forecast
,anytime
,zoo
通常,我们在数据库中会存储一些日志数据的时间戳,他们以形如 2016-10-23 15:12:06
的格式存储,当我们从数据库读入内存,以数据帧格式存储时,可能存在一列这样的数据:
create_time | |
---|---|
2016-10-23 15:43:45 | |
2016-10-23 12:12:06 | |
2016-10-23 15:22:01 | |
2016-10-23 15:34:27 | |
2016-10-23 13:42:31 | |
... |
通过时间戳,我们往往还需要挖掘出更细粒度的特征,比如年月日,上午、下午、晚上,季度、星期、是否闰年、是否节假日(法定或促销)等等。
利用lubridate
,我们可以很方便的提取时间维度的特征,由于机器只能识别数字,所以 0-1 变量我们都转为数字显示,而不是默认的 TRUE/FALSE
。
con <- RMySQL::dbConnect(RMySQL::MySQL(),
user="root", password="FinanceR",
dbname="quota", host="localhost")
con %>% dbSendStatement("SET NAMES UTF8")
# fetch data
raw_data <- con %>%
dbSendQuery("
select code,
price,
create_time
from quota.price
") %>%dbFetch(-1)
# feature engineering
data <- raw_data %>%
mutate(ymd = lubridate::ymd_hms(create_time) %>% lubridate::ymd_hms()) %>%
mutate(am = lubridate::ymd_hms(create_time) %>% lubridate::am() %>% ifelse(0,1)) %>%
mutate(wday = lubridate::ymd_hms(create_time) %>% lubridate::wday()) %>%
mutate(month = lubridate::ymd_hms(create_time) %>% lubridate::month()) %>%
mutate(quarter = lubridate::ymd_hms(create_time) %>% lubridate::quarter()) %>%
mutate(leap_year = lubridate::ymd_hms(create_time) %>% lubridate::leap_year() %>% ifelse(0,1)) %>%
mutate(time_5_min = lubridate::ceiling_date(create_time,'5 mins') ) %>%
mutate(night = night(create_time)) %>%
mutate(holiday = is_holiday(create_time))
# data viz
data %>% select(-create_time) %>% GGally::ggcorr( nbreaks = 10) %>% plotly::ggplotly()
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。