python怎么清理数据?怎么进行标准格式化的处理?自然语言处理的方法?

magicyangqwe
  • 34

1.近期准备开发一个工作上的软件,涉及到银行的联行号识别,需要处理相关数据。但是数据又不是非常标准的数据,我自己尝试写过相关处理方法,但是涉及到需要考虑的情况非常多,始终没有达到自己的预期。
2.需要处理的数据大概是以下类型。我自己从网上爬取了标准的银行行号数据,保存到了本地的excel,现在需要做到一一匹配。
QQ截图20200530231651.jpg
QQ截图20200530232023.jpg
3.目前遇到的问题是,需要处理的数据格式不统一。比如,建行成都第一支行,源数据可能的情况有:建行成都市第一支行,建行股份有限公司成都一支行,中国建设银行股份有限公司成都一支行,中国建行成都市第一支行等等。最终,我想要的结果是能够识别成标准的数据格式(需要与爬取的本地excel数据库进行精准匹配),源数据需要处理成银行+城市+关键字(上述的第一支行就是关键字),这样我就可以通过标准数据库查找到相应的行号了。我尝试用过fuzzywuzzy模块中的process来进行相应匹配,效果不是很理想。比如工行第一支行,建行第一支行,在process中匹配建设银行股份有限公司第一支行匹配结果一样,匹配比例是一样的,需要人工干预,但是银行行类别太多,无法做到每个银行单独匹配。
最后,麻烦大家了,谢谢。

回复
阅读 774
2 个回答

数据在你手上,你自己都无法摸清楚数据格式,你觉得凭你这寥寥几段话,就能有人帮得到你?

即使是之前到处在吹捧的人工智能,背后其实也是有大量的人工干预的部分,你这点事情,自己好好花点时间就是了

先做中文分词

你知道吗?

宣传栏