如何用正则表达式提取网页中的ip 端口?

问题描述

关于正则表达式
做代理池时找到的一个代理网站 提取ip和端口出现的问题

相关代码

// 请把代码文本粘贴到下方(请勿用图片代替代码)
<tr>
<td>1</td>
<td>115.159.100.19</td>
<td>8998</td>
<td>上海</td>
<td>上海</td>
<td>电信</td>
<td>high</td>
<td>7.05 毫秒</td>
<!-- td></td -->
<td>
7分钟前

</td>
<td>复制</td>
</tr>
<tr>
<td>2</td>
<td>221.229.166.55</td>
<td>8080</td>
<td>江苏</td>
<td>徐州</td>
<td>电信</td>
<td>anonymous</td>
<td>21.26 毫秒</td>
<!-- td></td -->
<td>
7分钟前

我写的正则表达式re.findall('<td>.?<td>(.).*?(d+)</td>',html,re.S)
不知道为什么一直出不了结果 希望大佬们指点一下

你期待的结果是什么?

阅读 4.2k
1 个回答

使用正则 ((\d+\.){3}\d+)[^\d]+?<td>(\d+) 匹配到每个match中 group1为ip,group3为端口

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题