精华贴评分、挑选、推荐算法?

在一个论坛里有很多帖子,如何挑选出精华贴?帖子的属性无非:

  1. 浏览量

  2. 评论数

  3. 发表时间

  4. 作者

  5. 帖子内容文字多少

有没有什么算法可以找出一些所谓的精华贴呢?应该从哪几个指标考察?
由于论坛帖子数并不多,所以如果人工标记精华贴然后用这些数据去训练,会不会过拟合?
有没有一些简单有效的分类算法呢?
帖子由于不能投票,所以无法给出一个分数。

阅读 4.3k
2 个回答

看discuz啊!
不过这种选出来的反正还是垃圾帖子,没人工好!

新手上路,请多包涵

如果只是精华筛选,可以参考:
评论量/去重用户量x(当前时间-发表时间)/ 浏览量/去重用户量x(当前时间-发表时间)
也可以直接用户去重。
按照一片文章的评论率去评估,也就是看过一篇文章后有多大评论产生。
这只是最基础的对文章进行排序。最后可以添加文章评论语义词分析,对词汇进行权重分配后相乘。
这只是一种算法。短时间内如果产生大量评论对文章的影响还是很大的,结合人工防刷。
还包括点赞的影响。分配权重后加进去。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题