在一个论坛里有很多帖子,如何挑选出精华贴?帖子的属性无非:
浏览量
评论数
发表时间
作者
帖子内容文字多少
有没有什么算法可以找出一些所谓的精华贴呢?应该从哪几个指标考察?
由于论坛帖子数并不多,所以如果人工标记精华贴然后用这些数据去训练,会不会过拟合?
有没有一些简单有效的分类算法呢?
帖子由于不能投票,所以无法给出一个分数。
在一个论坛里有很多帖子,如何挑选出精华贴?帖子的属性无非:
浏览量
评论数
发表时间
作者
帖子内容文字多少
有没有什么算法可以找出一些所谓的精华贴呢?应该从哪几个指标考察?
由于论坛帖子数并不多,所以如果人工标记精华贴然后用这些数据去训练,会不会过拟合?
有没有一些简单有效的分类算法呢?
帖子由于不能投票,所以无法给出一个分数。
如果只是精华筛选,可以参考:
评论量/去重用户量x(当前时间-发表时间)/ 浏览量/去重用户量x(当前时间-发表时间)
也可以直接用户去重。
按照一片文章的评论率去评估,也就是看过一篇文章后有多大评论产生。
这只是最基础的对文章进行排序。最后可以添加文章评论语义词分析,对词汇进行权重分配后相乘。
这只是一种算法。短时间内如果产生大量评论对文章的影响还是很大的,结合人工防刷。
还包括点赞的影响。分配权重后加进去。
1 回答3.2k 阅读✓ 已解决
1 回答2.7k 阅读
2.5k 阅读
2 回答1.3k 阅读
1 回答1.1k 阅读
1 回答455 阅读✓ 已解决
1 回答406 阅读✓ 已解决
看discuz啊!
不过这种选出来的反正还是垃圾帖子,没人工好!