使用txt文件分析数据遇到的问题
有时候到手的数据基本是固定分隔符分隔的几个文件,需要重里面做一些数据统计,比如去重,计算某一列的和,两个文件的并集等等,如果能够像sql一样操作txt文件就好了,这就是pandas带来的好处
如何加载txt文件?
示例文件数据 papa.txt
paxi_id grade
1 50
2 50
3 100
4 200
3 100
5 100
安装好jupyter ,在文件目录中运行jupyter notebook,在打开的浏览器界面上,选择python运行
在打开的界面上,运行加载的命令
import pandas #引入pandas
papa=pandas.read_csv('papa.txt',sep='\t') #加载papa.txt,指定它的分隔符是 \t
papa.head() #显示数据的前几行
可以看到加载的结果直观的用表格展示
如何知道刚加载的数据有几行?有几列?
运行指令如下
rowNum=papa.shape[0] #不包括表头
colNum=papa.columns.size
结果为
如何根据一列对整个数据进行去重?
运行指令如下
uPapa=papa.drop_duplicates(['paxi_id'])
结果如下
如何获取一列的去重的值?去重后有多少个?
运行指令如下
uPaxiId=papa['paxi_id'].unique()
print("uPaxiId:",uPaxiId)
totalUPaxiIdNum=uPaxiId.size
print("num:",totalUPaxiIdNum)
运行结果如下
如何计算一列的和?
运行指令如下
papa['grade'].sum()
结果如下
如何过滤特定的值的行?
运行指令如下
papa[ ( papa['grade'] == 50 ) | ( papa['grade'] == 100 ) ]
结果如下
如何计算某一列各个取值的个数?
运行指令如下
gPapa=papa.groupby('grade').size()
结果如下
如何计算其中两个或者所有的和?
运行指令如下
v=gPapa[50]+gPapa[100]
print("两个的和:",v)
print("总和:",gPapa.sum())
结果如下
如何用图形表示各个值?
运行指令如下
import matplotlib.pyplot as plt
fig=plt.figure()
gPapa.plot(kind='bar',grid=True) #bar 和 barh 能切换x轴,y轴
plt.show() #在需要显示的时候调用,会一次把所有的图都画出来
结果如下
如何对两个txt的文件根据一列做join?
另一个文件为xixi.txt
paxi_id type
1 3
2 4
3 3
4 4
5 3
执行指令如下
xixi=pandas.read_csv('xixi.txt',sep='\t')
uXixi=xixi.drop_duplicates(['paxi_id'])
pandas.merge(uPapa,uXixi,on=['paxi_id']) #join
结果如下
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。