我正在研究回归问题,数据显示为三列的 csv 文件,其中第二列包含日期,我想将日期(格式:1/1/2015 12:00:00)转换为 int (112015120000) 以便能够规范化和应用我的模型。我是这样进行的:
data_set = pd.read_csv('train.csv')
date = data_set['Date'] # Dates represent the header of the dates' column
dates = date.values
date1 = [date.replace("-","") for date in dates ]
date2 = [date.replace(":","") for date in date1 ]
date_train = [date.replace(" ","") for date in date2 ]
但我觉得这很耗时且效率低下,有没有更短的方法来做到这一点?否则,是否可以直接在日期时间类型上应用规范化?
原文由 Sofia693 发布,翻译遵循 CC BY-SA 4.0 许可协议
你可以做 :
解释:
1.
'\D'
将所有非数字字符替换为''
。2. 最后,我们使用
astype
将结果字符串转换为整数。这是一个虚拟示例: