pandas操作txt文件的方便之处

使用txt文件分析数据遇到的问题

有时候到手的数据基本是固定分隔符分隔的几个文件，需要重里面做一些数据统计，比如去重，计算某一列的和，两个文件的并集等等，如果能够像sql一样操作txt文件就好了，这就是pandas带来的好处

如何加载txt文件？

示例文件数据 papa.txt

 paxi_id grade
  1       50
  2       50
  3       100
  4       200
  3       100
  5       100

安装好jupyter ,在文件目录中运行jupyter notebook,在打开的浏览器界面上，选择python运行

图片描述
在打开的界面上，运行加载的命令

import pandas #引入pandas
papa=pandas.read_csv('papa.txt',sep='\t') #加载papa.txt,指定它的分隔符是 \t
papa.head() #显示数据的前几行

可以看到加载的结果直观的用表格展示

图片描述

如何知道刚加载的数据有几行？有几列？

运行指令如下

rowNum=papa.shape[0] #不包括表头
colNum=papa.columns.size

结果为

图片描述

如何根据一列对整个数据进行去重？

运行指令如下

uPapa=papa.drop_duplicates(['paxi_id'])

结果如下
图片描述

如何获取一列的去重的值？去重后有多少个？

运行指令如下

uPaxiId=papa['paxi_id'].unique()
print("uPaxiId:",uPaxiId)
totalUPaxiIdNum=uPaxiId.size
print("num:",totalUPaxiIdNum)

运行结果如下

图片描述

如何计算一列的和？

运行指令如下

papa['grade'].sum()

结果如下

图片描述

如何过滤特定的值的行？

运行指令如下

papa[ ( papa['grade'] == 50 ) | ( papa['grade'] == 100 ) ]

结果如下

图片描述

如何计算某一列各个取值的个数?

运行指令如下

gPapa=papa.groupby('grade').size()

结果如下

图片描述

如何计算其中两个或者所有的和？

运行指令如下

v=gPapa[50]+gPapa[100]
print("两个的和:",v)
print("总和:",gPapa.sum())

结果如下

图片描述

如何用图形表示各个值？

运行指令如下

import matplotlib.pyplot as plt
fig=plt.figure()
gPapa.plot(kind='bar',grid=True) #bar 和 barh 能切换x轴，y轴
plt.show() #在需要显示的时候调用，会一次把所有的图都画出来

结果如下

图片描述

如何对两个txt的文件根据一列做join?

另一个文件为xixi.txt

paxi_id    type
1    3
2    4
3    3
4    4
5    3

执行指令如下

xixi=pandas.read_csv('xixi.txt',sep='\t')
uXixi=xixi.drop_duplicates(['paxi_id'])
pandas.merge(uPapa,uXixi,on=['paxi_id']) #join

结果如下
图片描述

附pandas官方文档

https://pandas.pydata.org/pan... 有教程~

pandas操作txt文件的方便之处

使用txt文件分析数据遇到的问题

如何加载txt文件？

如何知道刚加载的数据有几行？有几列？

如何根据一列对整个数据进行去重？

如何获取一列的去重的值？去重后有多少个？

如何计算一列的和？

如何过滤特定的值的行？

如何计算某一列各个取值的个数?

如何计算其中两个或者所有的和？

如何用图形表示各个值？

如何对两个txt的文件根据一列做join?

附pandas官方文档

爬蜥

引用和评论

爬蜥学习之旅

Anaconda安装教程以及Anaconda和pip配置国内镜像

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

python与nodejs哪个性能高

Python 描述符

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时