新手上路，请多包涵

不确定这是否属于统计数据，但我正在尝试使用 Python 来实现这一点。我基本上只有一个整数列表：

 data = [300,244,543,1011,300,125,300 ... ]

我想知道在给定这些数据的情况下某个值出现的概率。我使用 matplotlib 绘制了数据的直方图并获得了这些：

在第一张图中，数字表示序列中字符的数量。在第二张图中，它是以毫秒为单位的测量时间量。最小值大于零，但不一定有最大值。这些图表是使用数百万个示例创建的，但我不确定我是否可以对分布做出任何其他假设。鉴于我有几百万个值示例，我想知道新值的概率。在第一张图中，我有几百万个不同长度的序列。例如，想知道 200 长度的概率。

我知道对于连续分布，任何精确点的概率都应该为零，但是给定一系列新值，我需要能够说出每个值的可能性有多大。我查看了一些 numpy/scipy 概率密度函数，但我不确定在运行 scipy.stats.norm.pdf(data) 之类的东西后应该选择哪个或如何查询新值。似乎不同的概率密度函数将以不同的方式拟合数据。鉴于直方图的形状，我不确定如何决定使用哪个。

原文由 qazplok11 发布，翻译遵循 CC BY-SA 4.0 许可协议

python matplotlib scipy probability probability-density

阅读 787

2 个回答

得票最新

社区维基

发布于
2023-01-11

✓ 已被采纳

由于您似乎没有考虑特定的分布，但您可能有很多数据样本，因此我建议使用非参数密度估计方法。您描述的一种数据类型（以毫秒为单位的时间）显然是连续的，并且您已经提到的直方图是连续随机变量的概率密度函数（PDF）非参数估计的一种方法。但是，正如您将在下面看到的，核密度估计 (KDE) 可能会更好。您描述的第二种数据类型（序列中的字符数）是离散类型的。在这里，核密度估计也很有用，可以看作是一种平滑技术，适用于离散变量的所有值没有足够数量的样本的情况。

估计密度

下面的例子展示了如何首先从 2 个高斯分布的混合中生成数据样本，然后应用核密度估计来找到概率密度函数：

 import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from sklearn.neighbors import KernelDensity

# Generate random samples from a mixture of 2 Gaussians
# with modes at 5 and 10
data = np.concatenate((5 + np.random.randn(10, 1),
                       10 + np.random.randn(30, 1)))

# Plot the true distribution
x = np.linspace(0, 16, 1000)[:, np.newaxis]
norm_vals = mlab.normpdf(x, 5, 1) * 0.25 + mlab.normpdf(x, 10, 1) * 0.75
plt.plot(x, norm_vals)

# Plot the data using a normalized histogram
plt.hist(data, 50, normed=True)

# Do kernel density estimation
kd = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(data)

# Plot the estimated densty
kd_vals = np.exp(kd.score_samples(x))
plt.plot(x, kd_vals)

# Show the plots
plt.show()

这将产生以下图，其中真实分布显示为蓝色，直方图显示为绿色，使用 KDE 估计的 PDF 显示为红色：

如您所见，在这种情况下，直方图近似的 PDF 不是很有用，而 KDE 提供了更好的估计。但是，如果数据样本数量较多且 bin 大小选择得当，直方图也可能产生良好的估计。

对于 KDE，您可以调整的参数是内核和 _带宽_。您可以将内核视为估计 PDF 的构建块，Scikit Learn 中提供了多个内核函数：高斯、tophat、epanechnikov、指数、线性、余弦。更改带宽允许您调整偏差方差权衡。更大的带宽会导致偏差增加，如果您的数据样本较少，这很好。较小的带宽会增加方差（估计中包含的样本较少），但当有更多样本可用时会给出更好的估计。

计算概率

对于 PDF，概率是通过计算一系列值的积分获得的。正如您所注意到的，这将导致特定值的概率为 0。

Scikit Learn 似乎没有用于计算概率的内置函数。但是，很容易估计 PDF 在一定范围内的积分。我们可以通过在范围内多次评估 PDF 并将获得的值乘以每个评估点之间的步长来求和。在下面的示例中， N 样本是通过步骤 step 获得的。

 # Get probability for range of values
start = 5  # Start of the range
end = 6    # End of the range
N = 100    # Number of evaluation points
step = (end - start) / (N - 1)  # Step size
x = np.linspace(start, end, N)[:, np.newaxis]  # Generate values in the range
kd_vals = np.exp(kd.score_samples(x))  # Get PDF values for each x
probability = np.sum(kd_vals * step)  # Approximate the integral of the PDF
print(probability)

请注意 kd.score_samples 生成数据样本的对数似然。因此，需要 np.exp 来获得可能性。

可以使用内置的 SciPy 集成方法执行相同的计算，这将给出更准确的结果：

 from scipy.integrate import quad
probability = quad(lambda x: np.exp(kd.score_samples(x)), start, end)[0]

例如，对于一次运行，第一种方法计算的概率为 0.0859024655305 ，而第二种方法产生 0.0850974209996139 。

原文由 Andrzej Pronobis 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-11

好的，我将此作为起点，但估计密度是一个非常广泛的话题。对于涉及序列中字符数量的案例，我们可以使用 经验概率 从直接的频率论者角度对此进行建模。在这里，概率本质上是百分比概念的概括。在我们的模型中，样本空间是离散的，并且都是正整数。好吧，然后您只需计算发生次数并除以事件总数即可获得对概率的估计。在我们有零观察的任何地方，我们对概率的估计都是零。

 >>> samples = [1,1,2,3,2,2,7,8,3,4,1,1,2,6,5,4,8,9,4,3]
>>> from collections import Counter
>>> counts = Counter(samples)
>>> counts
Counter({1: 4, 2: 4, 3: 3, 4: 3, 8: 2, 5: 1, 6: 1, 7: 1, 9: 1})
>>> total = sum(counts.values())
>>> total
20
>>> probability_mass = {k:v/total for k,v in counts.items()}
>>> probability_mass
{1: 0.2, 2: 0.2, 3: 0.15, 4: 0.15, 5: 0.05, 6: 0.05, 7: 0.05, 8: 0.1, 9: 0.05}
>>> probability_mass.get(2,0)
0.2
>>> probability_mass.get(12,0)
0

现在，对于您的计时数据，将其建模为连续分布更为自然。您应该采用非参数方法，而不是使用假设您的数据具有某种分布然后将该分布拟合到您的数据的参数方法。一种直接的方法是使用核密度估计。您可以简单地将其视为一种平滑直方图以提供连续概率密度函数的方法。有几个库可用。也许单变量数据最直接的是 scipy 的：

 >>> import scipy.stats
>>> kde = scipy.stats.gaussian_kde(samples)
>>> kde.pdf(2)
array([ 0.15086911])

要获得某个时间间隔内观察的概率：

 >>> kde.integrate_box_1d(1,2)
0.13855869478828692

原文由 juanpa.arrivillaga 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何在给定 Python 分布样本列表的情况下计算值的概率？

估计密度

计算概率

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何在给定 Python 分布样本列表的情况下计算值的概率？

估计密度

计算概率

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？