假设所有实体名存在A.xlxs中(补充一下,大概几百个实体,几万条序列),
假设其中一个序列为"现场可见屏幕有坏点,听筒声音过小,连接上耳机通话时偶尔对方听不清楚。”
上面这个序列中实体有三个,但是在一个序列中实体个数其实是不定的,如何实现识别出实体后,并记录实体所在的索引区间。
一个思路是,用re.search()找到第一个实体后,分割序列,如分割为I.【现场可见屏幕】,II.【有坏点,听筒声音过小,连接上耳机通话时偶尔对方听不清楚。】两部分,接着对II部分接着re.search(),重复上述步骤,直到re.search()返回值为空。
感觉上面的思路不是很好,求指点一下,谢谢。
忘记提标注的事情了,大家见谅 = =
然后已知实体在该序列中的索引值,该怎么写入到txt文件中,大致如下:
现 O
场 O
可 O
见 O
屏 B-Part
幕 I-Part
有 O
坏 O
点 O
, O
听 B-Part
筒 I-Part
声 O
音 O
......
简单粗暴一点,把所有实体名用|拼起来,直接正则匹配