领导权力工具:SQL 和统计学

主要观点:工程领导职位的人常不擅长从各种数据存储中提取和解释数据,应掌握 SQL(以 DuckDB 为例)及统计工具,如总结统计、分布、置信区间和贝叶斯推理等,以做出数据驱动的决策。
关键信息:

  • DuckDB 是进入 SQL 世界的好起点,可用于运行各种文件的查询,能连接远程数据库,如 Postgres 和 MySQL,还可通过 SQLTutorial 学习基础 SQL 并用于实践。
  • 示例展示了在 DuckDB 中运行查询获取数据及进行简单汇总,如按日统计用户注册数等,还介绍了描述性统计方法及在问题追踪数据中的应用。
  • 提到常用的 5 种概率分布,如帕累托分布、高斯分布等,以及通过 DuckDB 帮助审查直方图。
  • 讲解置信区间的计算方法,包括利用公式及蒙特卡洛模拟,如计算 Firefox“Tabbed Browser”组件解决 bug 的时间置信区间,并对比不同方法的结果。
  • 以项目估计为例说明贝叶斯推理,通过初始信念和新数据更新概率,为 stakeholders 提供高质量估计。
    重要细节:
  • 提供了具体的 SQL 查询代码和 Python 代码示例,如处理时间戳、计算置信区间、进行蒙特卡洛模拟等。
  • 强调了统计方法在工程领导决策中的重要性,同时提醒要对工作进行双重检查以符合业务目标。
  • 推荐了相关的学习资源,如 Ivan Savov 的关于修订统计课程的文章、Think Stats 和 Python for Stats 等。
阅读 7
0 条评论