数据处理主要是为了在完成数据清洗过程之后,对清洗过后的数据进行整理方便后期的数据汇总、统计等。主要内容有数据的合并、分组、排序等内容操作。公众号:老王说编程 | 作者:老王
1,导入数据处理 python 库
# 导入 numpy 库,主要用于数据计算
import numpy as np
# 导入 pandas 库,主要用于读取 excel 数据、DataFrame 数据结构的使用
import pandas as pd
2,DataFrame 数据表合并
# 创建 data1 数据表
data1=pd.DataFrame({ "id":[1,2,3,4,5,6,7,8],
"names":['laowang','laowang','laowang','laowang','laowang','laowang','laowang','laowang']})
# 假设已经存在 data2 数据表
# merge() 函数将 data1 和 data2 中共有的数据进行合并,生成新的数据表 data_inner
data_inner = pd.merge(data1,data2,how='inner')
3,数据表设置索引
# 将 data_inner 数据表中的 id 字段设置为索引列
data_inner.set_index('id')
4,按某字段或索引列进行排序
# data_inner 数据表按 name 字段的列进行排序
data_inner.sort_values(by=['name'])
# 按索引列进行排序
data_inner.sort_index()
5,数据表分组
# 将 name 列等于 'laowang' 的进行高亮展示
data_inner['name'] = np.where(df_inner['name'] == 'laowang','high','low')
更多精彩前往老王说编程>>>
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。