一列数据是频率的统计问题？

一般不坑

49148

发布于
2018-07-12

有一个样本，a列是数字，b列是该数字出现的次数，样本很大，要求这个样本的标准差和正态分布图，请问用python应该怎样处理？查了很多，还是不太懂...
A B
100 2
200 3
300 4
... ...

python 统计

阅读 4.2k

2 个回答

Leo黎诗霆

✓ 已被采纳

关于数据

可以看成一个长这样[100,100,200,200,200,300,300,300,300,...]的list。

标准分布

可以使用numpy的std()来计算标准差，当然自己写公式也可以。比如

In [1]: import numpy as np
In [2]: np.std([100,100,200,200,200,300,300,300,300])
Out[2]: 78.56742013183862

分布图

正态分布图只是正态分布的数据的分布图。是否正态分布取决于你的数据。可以考虑用seaborn来绘制分布图。

import seaborn as sns
sns.distplot([100,100,200,200,200,300,300,300,300])

分布图长这样：

图片描述

大数据量

可以用pandas读取。用一个循环将数据表转为list：

import pandas as pd
df = pd.DataFrame({'A':[100,200,300],'B':[2,3,4]})
"""
df 像这样

     A  B
0  100  2
1  200  3
2  300  4
"""

l = []
for i, j in zip(df['A'],df['B']):
    tmp = [i]*j
    l.extend(tmp)
    
"""
l 像这样
[100, 100, 200, 200, 200, 300, 300, 300, 300]
"""

李毅

5k1219

发布于
2018-07-17

虽然 @Leo黎诗霆同学的方法可以解决问题，但算不上高效率，也没有充分利用 numpy 类库的矩阵运算能力。

以下提供更为简洁、高效的方法，希望同学们从中理解 numpy 矩阵运算的精妙。

假设你已经知道如何计算一组数的标准差，否则请看 https://zh.wikipedia.org/zh-h...

对于一组数 [ 100, 200, 300 ] ，及其对应的个数 [ 1, 2, 3 ]

import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'a': [100, 200, 300], 
    'b': [1, 2, 3],         # a 列对应元素的个数
})

# n 为样本总数， m 为平均值， sd 为标准差
n = df.b.sum()
m = (df.a * df.b).sum() / n
sd = ((df.b * ((df.a - m) ** 2)).sum() / n) ** 0.5

# 绘制直方图
plt.hist(df.a, weights=df.b)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

一列数据是频率的统计问题？

关于数据

标准分布

分布图

大数据量

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？