请问这种文本怎么抓取?(python爬虫)

图片描述

如图,可以很容易的定位到<span class="pl">制片国家/地区:</span>,然后把该标签的文本抓下来。但是那个 “法国/德国” 它好像不属于任何一个标签,这种文本怎么抓?

阅读 4.7k
6 个回答
<span class="pl">制片国家/地区:</span>([\s\S]*)<br>[\s\S]*语言

没有什么是正则解决不了的 ([\s\S]*) 这个里面的就是制片国家/地区

你这扒的是豆瓣吧 哈哈 豆瓣抓取多了会限制ip 哦

楼主,xpath了解一下,右键一下就出来了,只是需要确定html结构而已,比beautifulsoup好用很多

依然有迹可循,他在span的后面 用python的话用 先得到两个 pl 之间 然后引号之内
可以 参考 谷歌 的 puppeteer 进行高级爬虫爬取

爬取这种信息有很多种方法
1)醉常用的也是现在比较流行的一种方式就是python的一种爬取的方式
https://www.crummy.com/softwa... 这个是爬虫的一个开放文档,使用起来很简单
2)PHP也是可以做爬虫处理的
https://doc.querylist.cc/ 这个是文档地址,也很简单,入门方便
3)node.js也是可以做爬虫的
总结可以写爬虫的方式有很多,就要看你比较喜欢哪种然后比较适合哪种

方法一:正则强无敌,看楼上

方法二:Beautifulsoup解决(题主是用beautifulsoup的吧,如果不是请说)
“法国/德国”虽然看上去不属于任何标签,但是它应该是属于<span class="pl">的父标签(往上找找)。假如父标签是a,那么可以通过a对象的strings属性获取a标签下所有字符串的迭代器,list化后索引出来

target = list(a.strings)[n]

别再推荐用正则去解析标记类型文档了,看到这种正则强无敌的言论头都大了,你们别这样误导其他人了行不?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题