问题描述
关于正则表达式
做代理池时找到的一个代理网站 提取ip和端口出现的问题
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
<tr>
<td>1</td>
<td>115.159.100.19</td>
<td>8998</td>
<td>上海</td>
<td>上海</td>
<td>电信</td>
<td>high</td>
<td>7.05 毫秒</td>
<!-- td></td -->
<td>
7分钟前
</td>
<td>复制</td>
</tr>
<tr>
<td>2</td>
<td>221.229.166.55</td>
<td>8080</td>
<td>江苏</td>
<td>徐州</td>
<td>电信</td>
<td>anonymous</td>
<td>21.26 毫秒</td>
<!-- td></td -->
<td>
7分钟前
我写的正则表达式re.findall('<td>.?<td>(.).*?(d+)</td>',html,re.S)
不知道为什么一直出不了结果 希望大佬们指点一下
使用正则
((\d+\.){3}\d+)[^\d]+?<td>(\d+)
匹配到每个match中 group1为ip,group3为端口