请问这种文本怎么抓取？（python爬虫）

图片描述

如图，可以很容易的定位到<span class="pl">制片国家/地区：</span>,然后把该标签的文本抓下来。但是那个 “法国/德国” 它好像不属于任何一个标签，这种文本怎么抓？

python

html5

阅读 4.7k

6 个回答

一箭落旄头

<span class="pl">制片国家/地区:</span>([\s\S]*)<br>[\s\S]*语言

没有什么是正则解决不了的 ([\s\S]*) 这个里面的就是制片国家/地区

你这扒的是豆瓣吧哈哈豆瓣抓取多了会限制ip 哦

Jason_Luu

131

发布于
2018-05-07

楼主，xpath了解一下，右键一下就出来了，只是需要确定html结构而已，比beautifulsoup好用很多

jump__jump

2.5k1217

发布于
2018-05-04

依然有迹可循，他在span的后面用python的话用先得到两个 pl 之间然后引号之内
可以参考谷歌的 puppeteer 进行高级爬虫爬取

思梦php

13226

发布于
2018-05-04

爬取这种信息有很多种方法
1）醉常用的也是现在比较流行的一种方式就是python的一种爬取的方式
https://www.crummy.com/softwa... 这个是爬虫的一个开放文档，使用起来很简单
2）PHP也是可以做爬虫处理的
https://doc.querylist.cc/ 这个是文档地址，也很简单，入门方便
3）node.js也是可以做爬虫的
总结可以写爬虫的方式有很多，就要看你比较喜欢哪种然后比较适合哪种

忍野忍

20944

发布于
2018-05-04

更新于
2018-05-04

方法一：正则强无敌，看楼上

方法二：Beautifulsoup解决（题主是用beautifulsoup的吧，如果不是请说）
“法国/德国”虽然看上去不属于任何标签，但是它应该是属于<span class="pl">的父标签（往上找找）。假如父标签是a，那么可以通过a对象的strings属性获取a标签下所有字符串的迭代器，list化后索引出来

target = list(a.strings)[n]

Feng_Yu

12.6k62139

发布于
2018-05-11

更新于
2018-05-11

别再推荐用正则去解析标记类型文档了，看到这种正则强无敌的言论头都大了，你们别这样误导其他人了行不？

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

请问这种文本怎么抓取？（python爬虫）

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

H5页面点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

echarts底部滑块不要背景色的问题？

请问这种文本怎么抓取？（python爬虫）

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

H5页面 点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

echarts底部滑块不要背景色的问题？

H5页面点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？