如何高效地对两个excel文件(A,B)进行是否A包含B的查询及标记

主要是想做命名实体识别的标注;
具体来说,有两个excel文件,称之为A(n行1列),B(n行1列)。
举例来说,A中每一行是一句描述性质的话,B中每一行都是一个实体名
请问该如何高效地实现类似以下的功能:
for index,row in A.iterrows():

要判断row['描述']这一句话是否包含了B中的一个或者多个实体,并在A中进行标注

求指点思路。

阅读 3.3k
3 个回答

加入 A 和 B 都足够大的话可以把 B 的内容放在 AC 自动机里面,然后取用 A 的内容匹配)

感觉这个类似token解析。
可以把B的每一行作为一个正则表达式,用或合并为1个正则。
对于A的每一行对上面的正则进行匹配,通过re.finditer获取当前行所有匹配的token

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题