主要观点:介绍了蓄水池抽样(Reservoir sampling)技术,用于在不知道抽样集合大小的情况下选择公平随机样本。
关键信息:
- 当知道集合大小可通过混合或随机数生成器选样;当不知道集合大小时,蓄水池抽样可解决公平选样问题。
- 规则为每次看到新卡片时以
1/n
(n 为已见卡片数)的概率决定是否持有,可扩展到选择多个卡片。 - 应用于日志收集服务时,可设置
k=5
,每秒发送选定日志,在安静期和峰值期都能较好处理。
重要细节: - 以 10 张卡片选 3 张为例,展示混合选样和随机数选样方法及公平性。
- 模拟日志收集服务中,展示简单抽样和蓄水池抽样的效果对比。
- 详细推导了单个卡片和多个卡片的选择概率公式及过程。
- 提及有加权变体的蓄水池抽样及相关链接。
- 感谢赞助商 ittybit 及读者反馈。可通过[https://samwho.dev/ping]发送匿名消息反馈。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。