python 爬虫正则问题

<tr>
                                    <td>测试8</td>
                                    <td>
                                        
                                            
                                                不限制
                                            
                                            
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            3
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            
                                                300
                                            
                                        
                                    </td>
                                    <td>
                                        <a href="javascript:;" onclick="plan_edit('76261');">编辑</a>
                                    </td>
                                </tr>
                            
                                <tr>
                                    <td>测试7</td>
                                    <td>
                                        
                                            
                                                不限制
                                            
                                            
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            1
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            
                                                300
                                            
                                        
                                    </td>
                                    <td>
                                        <a href="javascript:;" onclick="plan_edit('76246');">编辑</a>
                                    </td>
                                </tr>
                            
                                <tr>
                                    <td>测试5</td>
                                    <td>
                                        
                                            
                                                不限制
                                            
                                            
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            1
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            
                                                300
                                            
                                        
                                    </td>
                                    <td>
                                        <a href="javascript:;" onclick="plan_edit('76181');">编辑</a>
                                    </td>
                                </tr>
                            
                                <tr>
                                    <td>测试4</td>
                                    <td>
                                        
                                            
                                                不限制
                                            
                                            
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            1
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            
                                                300
                                            
                                        
                                    </td>
                                    <td>
                                        <a href="javascript:;" onclick="plan_edit('76179');">编辑</a>
                                    </td>
                                </tr>
                            
                                <tr>
                                    <td>测试3</td>
                                    <td>
                                        
                                            
                                                不限制
                                            
                                            
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            0
                                        
                                    </td>
                                    <td>
                                        
                                            
                                            
                                                300
                                            
                                        
                                    </td>
                                    <td>
                                        <a href="javascript:;" onclick="plan_edit('76176');">编辑</a>
                                    </td>
                                </tr>

我想匹配测试8 到测试3 我写的是这样的

 feeds_plan_campaign_name = re.findall('''<tr>[.\S\s]*<td>(.*?)</td>[.\S\s]*<td>[.\S\s]*</td>[.\S\s]*<td>[.\S\s]*</td>[.\S\s]*<td>[.\S\s]*</td>[.\S\s]*<td>[.\S\s]*</td>[.\S\s]*</tr>''',feeds_plan_page_data.text,re.S)
                                    print len(feeds_plan_campaign_name)
                                    for k in range(len(feeds_plan_campaign_name)):
                                        print "name1" + feeds_plan_campaign_name[k]

打印的结果只有测试3 这是为啥呢？

网页爬虫

python

阅读 3.3k

4 个回答

Cat_1

对于这种结构分明(带有html完整标签的内容), 我建议不要使用正则表达式regex, 更好的办法是使用Xpath, 如果你还不知道什么是Xpath, 请在w3school学习一下.

仅需体验三分钟, 你就会和我一样爱上这款工具.(逃)

如果你坚持要用正则, 我写了个, 真的很麻烦! 而且挺没有可移植性. 如下, 供参考:

'''
regex = re.compile("<tr>[\s]*<td>([\u4e00-\u9fa50-9]*)</td>[\s]*<td>[\s]*([\u4e00-\u9fa5]*)
[\s]*</td>[\s]*<td>[\s]*([0-9]*)[\s]*</td>[\s]*<td>[\s]*([0-9]*)")
'''
# (一行写不下, 所以用了''' ''',请拷贝测试时删去)

返回值就是你需要的一个列表(多维数组).

alasja

发布于
2018-02-12

新手上路，请多包涵

佩服楼主的正则理解方式 <td>[.Ss]</td>[.Ss] 一堆重复不会括号扩起来吗
不想捕获的话用个非捕获括号(?:<td>[.Ss]</td>[.Ss])*

就你上面那个正则只有一个捕获括号，你还指望能返回啥呢

繁花

1725

发布于
2018-02-19

为何不尝试下beautifulsoup4呢（笑）

dodopy

2.4k1218

发布于
2018-03-29

更新于
2018-03-29

>>> from pyquery import PyQuery
>>> print([i.text for i in PyQuery(s)('tr > td:first')])
['测试8', '测试7', '测试5', '测试4', '测试3']

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

python 爬虫正则问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

python 爬虫 正则问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

python 爬虫正则问题

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？