一个机器学习二元分类的问题请教

需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选

想问一下 用机器学习实现这个需求该怎么做呢?

样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)

阅读 2.1k
2 个回答

样本有多大呢?有100W吗?如果样本很大的话,可以直接深度学习。如果不是太大的话,根据你给出的样本可以直接上逻辑回归。不过要自己提取特征,特征太小可能推荐不精准,特征太大又可能过拟合。还是要自己尝试一下。

先从特征工程上仔细思考?在抓取新闻过程中更多维度的抓取。然后重点落在高质量如何判断。

  • 如出现次数,评论数,互评数,长度,是否广告,都可能是影响文章“质量”的因素。
  • 然后再以上述数据作为输入传入模型(LR/DT/SVM),输出结果。

除此之外,如果不想做特征工程,可以考虑深度学习。将每条新闻,以一串长文本形式进行word embedding作为序列传入神经网络,输出是否高质量的二分类。word embedding可以采用预训练好的或在训练模型时同时训练。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进