《python数据挖掘入门与实践》第4章的apriori算法代码是不是有错？

Question

《python数据挖掘入门与实践》第4章的apriori算法代码是不是有错？

发布于
2022-07-24

新手上路，请多包涵

这是apriori算法代码的一部分。我们想从只包含1项的频繁项集出发得到包含2项的频繁项集。代码如下：

from collections import defaultdict\n",
  "\n",
  "def find_frequent_itemsets(favorable_reviews_by_users, k_1_itemsets, min_support):\n",
  "    counts = defaultdict(int)\n",
  "    for user, reviews in favorable_reviews_by_users.items():\n",
  "        for itemset in k_1_itemsets:\n",
  "            if itemset.issubset(reviews):\n",
  "                for other_reviewed_movie in reviews - itemset:\n",
  "                    current_superset = itemset | frozenset((other_reviewed_movie,))\n",
  "                    counts[current_superset] += 1\n",
  "    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])"

我认为这里的频繁项集被重复计算了。例如：对用户1来说，集合{A,B}和{B,A}是相同的，但是根据代码：

for itemset in k_1_itemsets:\n",
  "            if itemset.issubset(reviews):\n",
  "                for other_reviewed_movie in reviews - itemset:\n",
  "                    current_superset = itemset | frozenset((other_reviewed_movie,))\n",
  "                    counts[current_superset] += 1\n",

当 itemset==A, 我们对{A,B}计数一次，
当 itemset==B, 我们对{B,A}又计数一次，
所以这里是不是重复计数了？如果是，应该怎样修改程序呢？

python 数据挖掘算法

阅读 674

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

《python数据挖掘入门与实践》第4章的apriori算法代码是不是有错？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？