如何获取熊猫数据框中一行的百分位数？

Question

新手上路，请多包涵

Example DataFrame Values -

0     78
1     38
2     42
3     48
4     31
5     89
6     94
7    102
8    122
9    122

stats.percentileofscore(temp['INCOME'].values, 38, kind='mean')
15.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='strict')
10.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='weak')
20.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='rank')
20.0

temp['INCOME'].rank(pct=True)
1    0.20 (Only showing the 38 value index)

temp['INCOME'].quantile(0.11)
37.93

temp['INCOME'].quantile(0.12)
38.31999999999999

Based on the results above, you can see none of the methods are consistent
with the pd.quantiles() method.

我需要获取数据帧（255M 行）中每一行的一列的百分位数，但找不到任何返回他们在 pd.quantile & np.percentile 中使用的 “线性插值” 方法的函数/方法 --- 。

我尝试了以下方法/功能 -

 .rank(pct=True)

此方法仅返回按顺序排列的值，而不是使用我正在寻找的百分位数方法。与 pd.quantiles

 scipy.stats.percentileofscore

这种方法几乎更接近我正在寻找的方法，但由于某种原因仍然不是 100% 与“线性插值”方法一致。与此问题相关的问题没有真正的答案

我已经查看了与此问题相关的每个 SO 答案，但它们都没有使用我需要使用的相同插值方法，因此请不要将其标记为重复，除非您可以验证它们使用的是相同的方法。

在这一点上，我最后的选择是只找到所有 100 个百分位数的 bin 截止值并以这种方式应用它或自己计算线性插值，但这似乎效率很低，并且将永远应用于 255M 记录。

还有其他建议吗？

谢谢！

原文由 bbennett36 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas numpy scipy percentile

阅读 409

1 个回答

得票最新

社区维基

1

发布于
2023-01-10

TL; DR

利用

sz = temp['INCOME'].size-1
temp['PCNT_LIN'] = temp['INCOME'].rank(method='max').apply(lambda x: 100.0*(x-1)/sz)

   INCOME    PCNT_LIN
0      78   44.444444
1      38   11.111111
2      42   22.222222
3      48   33.333333
4      31    0.000000
5      89   55.555556
6      94   66.666667
7     102   77.777778
8     122  100.000000
9     122  100.000000

回答

一旦您了解了机制，它实际上非常简单。当您寻找分数的百分位数时，您已经在每一行中有了分数。剩下的唯一一步是了解您需要 小于或等于 所选值的数字的百分位数。这正是 --- 的参数 kind=‘weak’ 和 scipy.stats.percentileofscore() DataFrame.rank() method=‘average’ 所做的。为了反转它，运行 Series.quantile() with interpolation=‘lower’ 。

因此， scipy.stats.percentileofscore() 、 Series.rank() 和 Series.quantile() 的行为是一致的，见下文：

 In[]:
temp = pd.DataFrame([  78, 38, 42, 48, 31, 89, 94, 102, 122, 122], columns=['INCOME'])
temp['PCNT_RANK']=temp['INCOME'].rank(method='max', pct=True)
temp['POF']  = temp['INCOME'].apply(lambda x: scipy.stats.percentileofscore(temp['INCOME'], x, kind='weak'))
temp['QUANTILE_VALUE'] = temp['PCNT_RANK'].apply(lambda x: temp['INCOME'].quantile(x, 'lower'))
temp['RANK']=temp['INCOME'].rank(method='max')
sz = temp['RANK'].size - 1
temp['PCNT_LIN'] = temp['RANK'].apply(lambda x: (x-1)/sz)
temp['CHK'] = temp['PCNT_LIN'].apply(lambda x: temp['INCOME'].quantile(x))

temp

Out[]:
   INCOME  PCNT_RANK    POF  QUANTILE_VALUE  RANK  PCNT_LIN    CHK
0      78        0.5   50.0              78   5.0  0.444444   78.0
1      38        0.2   20.0              38   2.0  0.111111   38.0
2      42        0.3   30.0              42   3.0  0.222222   42.0
3      48        0.4   40.0              48   4.0  0.333333   48.0
4      31        0.1   10.0              31   1.0  0.000000   31.0
5      89        0.6   60.0              89   6.0  0.555556   89.0
6      94        0.7   70.0              94   7.0  0.666667   94.0
7     102        0.8   80.0             102   8.0  0.777778  102.0
8     122        1.0  100.0             122  10.0  1.000000  122.0
9     122        1.0  100.0             122  10.0  1.000000  122.0

现在在一列 PCNT_RANK 你得到小于或等于一列中的值的比率 INCOME 。但是如果你想要“插值”比率，它在列 PCNT_LIN 中。当您使用 Series.rank() 进行计算时，它非常快，可以在几秒钟内计算出 2.55 亿个数字。

在这里，我将解释如何通过使用 quantile() 和 linear 插值来获取值：

 temp['INCOME'].quantile(0.11)
37.93

我们的数据 temp['INCOME'] 只有十个值。根据您链接到 Wiki 的公式，第 11 个百分位数的排名是

rank = 11*(10-1)/100 + 1 = 1.99

rank 的截断部分为1，对应值为31，rank为2（即next bin）的值为38 fraction 的值为 rank 的小数部分。这导致了结果：

  31 + (38-31)*(0.99) = 37.93

对于值本身， fraction 部分必须为零，因此很容易进行逆计算以获得百分位数：

 p = (rank - 1)*100/(10 - 1)

我希望我说得更清楚。

原文由 igrinis 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 1 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何获取熊猫数据框中一行的百分位数？

TL; DR

回答

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

请问numpy如何简化以下代码？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译