Python数据分析：简单统计量的计算

1.这些操作都要确保已经在电脑中安装好了Anaconda集成库，如果安装好后运行出错误，可以将原来电脑中的python卸载重新安装Anaconda，建议安装时直接将添加环境变量打勾，否则以后得自己添加环境变量，在Pycharm中的编译器选择Anaconda安装文件夹中的python。在Pycharm中新建一个data文件夹用来存放数据文件。

在这里插入图片描述

2.打开Python Console。

3.首先在用python读取数据，需要先输入import pandas as pd引入pandas包，再输入df=pd.read_csv("./data/CityData.csv")读取数据，最后输入df显示数据。

在这里插入图片描述

4.分别输入type(df)和type(df["cid"])可以发现两种数据类型不同。

在这里插入图片描述

5.计算平均值：df.mean()或df["xid"].mean()

在这里插入图片描述

6.计算中位数：输入df.median()或df["yid"].median 在这里插入图片描述

7.求四分位数：输入df.quantile(q=0.25)

在这里插入图片描述

8.求众数：输入df.mode()或df["xid"].mode()

9.求标准差：输入df.std()或df["yid"].std()

在这里插入图片描述

10.计算方差：df.var()或df["xid"].var()

在这里插入图片描述

11.求和：df.sum()或df["xid"].sum()

在这里插入图片描述

12.计算偏态系数：df.skew()或df["yid"].skew()

在这里插入图片描述

13.计算峰态系数：df.kurt()或df["yid"].kurt()

在这里插入图片描述

14.生成正态分布函数，pandas无法直接生成，需要先引入scipyimport scipy.stats as ss，再输入ss.norm，这时生成的是一个正态分布的对象，我们输入ss.norm.stats(moments="mvsk")查看一下，mvsk分别代表的是均值、方差、偏态系数、峰态系数。

在这里插入图片描述

这时我们可以看到生成四个值，分别对应正态分布的mvsk分别为0、1、0、0。

15.ss.norm.pdf(0.0)表示横坐标为0时的纵坐标的值。ss.norm.ppf(0.9)表示从负无穷累积到返回值时得到的值为0.9，其中ppf后的值必须在0-1之间。ss.norm.cdf(2)表示从负无穷积分到2时的返回值，ss.norm.rvs(size=10)可以得到10个随机的符合正态分布的数字。

在这里插入图片描述

16.类似的，我们可以分别输入ss.chi2和ss.t得到卡方分布和T分布。

在这里插入图片描述

17.此外我们还可以进行抽样，输入df.sample(n=10)从数据中抽取10个样本，输入df.sample(frac=0.1)从数据中抽取10%的样本。

在这里插入图片描述

Python数据分析：简单统计量的计算

yhlp

引用和评论

Python数据分析：seaborn

Anaconda安装教程以及Anaconda和pip配置国内镜像

科学计算编程涉及到的技术栈简介

Python3 格式化时间（qbit）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

怎么判断自己下载的 trae 是国际版还是国内版？

如何系统地入门学习stm32？