目前我有两个想法 分词角度:问题可以转化为:如何根据姓名和地址正确的分词 文本格式化角度:指定文本排列格式。 分词角度 分词组件 可以参考: scws jieba-php 分词库 地址:这个相对好说,可以做一个地址词库。 姓名:这个没办法用词库枚举,但是如果跟地址相连,可以考虑 姓氏 开头,到 地址 结束 文本格式化角度 可以如下类似的形式: 姓名:张三,(.*) 地址:深圳宝安 这样提取固定格式后边的文本即可。 可以参考 菜鸟裹裹 添加地址时,类似实现。
按照特定规律提取,比如前几位是名字,后几位是地址 将所有地址存起来,然后检索词,找得到就是地址,找不到就是名字,但是不排除人名和地名相同的情况 简单的做法就是用特殊符号将名字和地址分隔开来,比如空格或者冒号之类的,然后做字符串截取就可以了
目前我有两个想法
分词角度:问题可以转化为:如何根据姓名和地址正确的分词
文本格式化角度:指定文本排列格式。
分词角度
分词组件
可以参考:
scws
jieba-php
分词库
地址:这个相对好说,可以做一个地址词库。
姓名:这个没办法用词库枚举,但是如果跟地址相连,可以考虑
姓氏
开头,到地址
结束文本格式化角度
可以如下类似的形式:
这样提取固定格式后边的文本即可。
可以参考
菜鸟裹裹
添加地址时,类似实现。