之前这块一直是正则提取的,功能已经相对完善,不过有时候需要微调,所以想实现一个AI可以自动提取并学习。
比如下面数据
干扰词干扰词某某公司或人名干扰词
12345678
干扰词某银行干扰词
123123123
主要想提取·某某公司或人名· 某银行和另外的数字,但是由于有干扰词存在,正则匹配后只能通过人工处理,那么有没有某种算法是可以自动学习,参考资料大致方向是什么。我现在已经搜索一些资料,主要搜索方向为“如何提取关键词”,正在看Word2Vec。
希望大神给个参考资料,或者搜索方向,多谢