fi-le.net

主要观点:

  • PyPi 有超过 50 万个开源项目,作者通过研究 PyPi 的包结构来构建可视化并发现新包。
  • 利用 PyPi 的 JSON API 和 BigQuery 数据,通过 SQL 查询获取所有包的元数据,重点关注依赖关系以构建有向图。
  • 由于节点过多,对数据进行筛选,得到约 10 万个包的测试数据集,使用 Gephi 软件和 Force Atlas 2 算法进行布局。
  • 可视化结果显示存在一些依赖相同包的包簇,如依赖“peppercorn”等的包簇,还有一些企业软件公司生成大量包,如 Triton、Odoo 等,能量布局还能找到可识别的语义邻域。
    关键信息:
  • PyPi 是 Python 软件基金会的包仓库,有超 50 万开源项目。
  • 可通过 JSON API 和 BigQuery 获取包元数据,重点关注依赖关系构建图。
  • 筛选数据得到约 10 万包的测试集,用 Gephi 和 Force Atlas 2 布局。
  • 发现一些包簇和企业软件公司生成的大量包,能量布局能找语义邻域。
    重要细节:
  • 索引网站有搜索和过滤功能,方便找特定包。
  • 数据在 BigQuery 中有一些不经典的包,已被 PyPi 检测并下架。
  • 过滤出重要列非空且有多于 2 个依赖的包。
  • 介绍了一个更成熟的版本[https://anvaka.github.io/pm/#...]及复制相关的仓库[https://github.com/lennart-fi...]。
阅读 10
0 条评论