关于百度热搜排名爬取的一个小疑问？

发布于
2022-03-10

在没有.pop之前rank列表里明明索引0，1是“ ”，索引2是“1”，但是我.pop索引0和1后，怎么原来的索引2变成了“ ”？

import requests
from lxml import etree

# 1.目标 url。
url = 'http://top.baidu.com/buzz?b=1&fr=topindex'
# 模拟浏览器请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}

# 2.发送请求
data = requests.get(url, headers=headers)
# 转码
data.encoding = "utf-8"
datas = data.text
# 转换
html = etree.HTML(datas)

# 3.解析数据         xpath 取出来的数据是一个列表。
# 排名
rank = html.xpath('//div[contains(@class,"index_1Ew5p")]/text()')
rank.pop(0)
#rank.pop(1)      #疑问点！！！！！！！！！！！！为什么我pop掉索引1的时候，索引2的值明明是"1"为什么会变成" "？


print(rank)

python python爬虫 python3.x 爬虫

阅读 2.2k

2 个回答

得票最新

bulay

104511

发布于
2022-03-11

✓ 已被采纳

首先明确一点,python的list类型是可变类型
当pop(0)的时候,list[0]会变为pop之前list[1]的值

l = [ i for i in range(4)]
for i in range(len(l)):
    print(l.pop())
----    
3
2
1
0
for i in l:
    print(l.pop())
----
3
2

程序员汪师傅

发布于
2022-03-10

新手上路，请多包涵

rank = html.xpath('//div[contains(@class,"index_1Ew5p")]/text()')

返回的有两个空格，你可以print看下
[' ', ' ', ' 1 ', ' 2 ']...

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

关于百度热搜排名爬取的一个小疑问？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

关于百度热搜排名爬取的一个小疑问？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？