如图,可以很容易的定位到<span class="pl">制片国家/地区:</span>,然后把该标签的文本抓下来。但是那个 “法国/德国” 它好像不属于任何一个标签,这种文本怎么抓?
如图,可以很容易的定位到<span class="pl">制片国家/地区:</span>,然后把该标签的文本抓下来。但是那个 “法国/德国” 它好像不属于任何一个标签,这种文本怎么抓?
爬取这种信息有很多种方法
1)醉常用的也是现在比较流行的一种方式就是python的一种爬取的方式
https://www.crummy.com/softwa... 这个是爬虫的一个开放文档,使用起来很简单
2)PHP也是可以做爬虫处理的
https://doc.querylist.cc/ 这个是文档地址,也很简单,入门方便
3)node.js也是可以做爬虫的
总结可以写爬虫的方式有很多,就要看你比较喜欢哪种然后比较适合哪种
方法一:正则强无敌,看楼上
方法二:Beautifulsoup解决(题主是用beautifulsoup的吧,如果不是请说)
“法国/德国”虽然看上去不属于任何标签,但是它应该是属于<span class="pl">的父标签(往上找找)。假如父标签是a,那么可以通过a对象的strings属性获取a标签下所有字符串的迭代器,list化后索引出来
target = list(a.strings)[n]
4 回答4.4k 阅读✓ 已解决
1 回答3.2k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答1.5k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
2 回答2.5k 阅读✓ 已解决
没有什么是正则解决不了的
([\s\S]*)
这个里面的就是制片国家/地区你这扒的是豆瓣吧 哈哈 豆瓣抓取多了会限制ip 哦