重现 Hacker News 写作风格指纹识别

主要观点:三年前在 Hacker News 上看到用余弦相似度检测相似 HN 账号的帖子,后因原页面消失且作者未详细说明数据处理等情况,作者决定用 Redis 的向量集重现该工作,介绍了数据下载处理过程(将 Parquet 文件转换为 txt 和 JSONL 文件)、Burrow 方法的工作原理(将词频转换为相对频率、标准化为 z 分数后插入 Redis 向量集)、为何使用 350 个词及调整过程、验证和可视化方法(通过不同变体用户测试及终端显示向量),还提到 insert.py 脚本可插入用户 JSON 元数据用于检测重复账号,最后感谢阅读长文。
关键信息:

阅读 12
0 条评论