就是给了我很多个不标准的地址格式,
例如
1 name,phone,address
2 name address phone
3 address phone name
4
(name,
address,
phone,)
5 我的地址:address 我的名字:name , 电话:phone
等等一堆格式,这种怎么改啊
还有各种中英文符号的,
这种怎么转成标准的
name phone address格式啊,
replace(/,|,/g,',')
有大佬给个思路吗,这种怎么解决啊
不标准格式
1->A(姓名),137XXXXXXXX(电话),XX省XXXXXXXXXXXXX(地址),
2->B,XX省XXXXXXXXXXXXX 137XXXXXXXXXX
3->XX省,
137XXXXXXXXXX,
C,
4->我的地址:XX省,
我的电话:137xxxxxxxxxxx,
我的性命:D
注意:这里由一连串的字符串来提供的,并不是一条地址为一项,是一整条字符串为一项
标准格式
A 137xxxxxxxx XX省XXXXXXXXX
[^\s\.(),,:]+
感觉这个问题都可以提升到ML来处理了。通过提取可能的单元符,对每个单元进行打分(判断是否更像某种属性),最后给出一种可能让用户确认,这个淘宝京东啥填物流地址的时候也有,都是提供一种可能,最后让用户来确认是否正确。
就这三个属性。其实特征还是蛮明显的。
手机就纯数字或者带个-之类的。位数也就两三种
名字如果不考虑英文 长度也比较固定。
最后一个就地址了。判断里面带点路省市之类的。
要十分准确的从随机顺序随机干扰条件下提取任意元素。。应该是不太可能的。。