主要观点:
- PyPi 有超过 50 万个开源项目,作者通过研究 PyPi 的包结构来构建可视化并发现新包。
- 利用 PyPi 的 JSON API 和 BigQuery 数据,通过 SQL 查询获取所有包的元数据,重点关注依赖关系以构建有向图。
- 由于节点过多,对数据进行筛选,得到约 10 万个包的测试数据集,使用 Gephi 软件和 Force Atlas 2 算法进行布局。
- 可视化结果显示存在一些依赖相同包的包簇,如依赖“peppercorn”等的包簇,还有一些企业软件公司生成大量包,如 Triton、Odoo 等,能量布局还能找到可识别的语义邻域。
关键信息: - PyPi 是 Python 软件基金会的包仓库,有超 50 万开源项目。
- 可通过 JSON API 和 BigQuery 获取包元数据,重点关注依赖关系构建图。
- 筛选数据得到约 10 万包的测试集,用 Gephi 和 Force Atlas 2 布局。
- 发现一些包簇和企业软件公司生成的大量包,能量布局能找语义邻域。
重要细节: - 索引网站有搜索和过滤功能,方便找特定包。
- 数据在 BigQuery 中有一些不经典的包,已被 PyPi 检测并下架。
- 过滤出重要列非空且有多于 2 个依赖的包。
- 介绍了一个更成熟的版本[https://anvaka.github.io/pm/#...]及复制相关的仓库[https://github.com/lennart-fi...]。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。