需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选
想问一下 用机器学习实现这个需求该怎么做呢?
样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)
需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选
想问一下 用机器学习实现这个需求该怎么做呢?
样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)
先从特征工程上仔细思考?在抓取新闻过程中更多维度的抓取。然后重点落在高质量如何判断。
除此之外,如果不想做特征工程,可以考虑深度学习。将每条新闻,以一串长文本形式进行word embedding作为序列传入神经网络,输出是否高质量的二分类。word embedding可以采用预训练好的或在训练模型时同时训练。
样本有多大呢?有100W吗?如果样本很大的话,可以直接深度学习。如果不是太大的话,根据你给出的样本可以直接上逻辑回归。不过要自己提取特征,特征太小可能推荐不精准,特征太大又可能过拟合。还是要自己尝试一下。