python怎么清理数据？怎么进行标准格式化的处理？自然语言处理的方法？

1.近期准备开发一个工作上的软件，涉及到银行的联行号识别，需要处理相关数据。但是数据又不是非常标准的数据，我自己尝试写过相关处理方法，但是涉及到需要考虑的情况非常多，始终没有达到自己的预期。
2.需要处理的数据大概是以下类型。我自己从网上爬取了标准的银行行号数据，保存到了本地的excel，现在需要做到一一匹配。
QQ截图20200530231651.jpg
QQ截图20200530232023.jpg
3.目前遇到的问题是，需要处理的数据格式不统一。比如，建行成都第一支行，源数据可能的情况有：建行成都市第一支行，建行股份有限公司成都一支行，中国建设银行股份有限公司成都一支行，中国建行成都市第一支行等等。最终，我想要的结果是能够识别成标准的数据格式（需要与爬取的本地excel数据库进行精准匹配），源数据需要处理成银行+城市+关键字（上述的第一支行就是关键字），这样我就可以通过标准数据库查找到相应的行号了。我尝试用过fuzzywuzzy模块中的process来进行相应匹配，效果不是很理想。比如工行第一支行，建行第一支行，在process中匹配建设银行股份有限公司第一支行匹配结果一样，匹配比例是一样的，需要人工干预，但是银行行类别太多，无法做到每个银行单独匹配。
最后，麻烦大家了，谢谢。

阅读 2.6k

python怎么清理数据？怎么进行标准格式化的处理？自然语言处理的方法？

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

我们知道MySQL字段可以存放纯文本，但是富文本有图片，有标题样式等情况，一般是怎么进行存储的呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？