微博热搜是爬取不了吗？

Question

微博热搜是爬取不了吗？

发布于
2021-09-26

微博热搜是爬取不了吗？我检查了热搜的网页代码也没变啊，就是莫名其妙爬不了，也没有报错～


import requests
from lxml import etree
import csv
from datetime import datetime
import time
import copy


def doSth():
    try:
        # 1.目标 url。
        url = 'https://s.weibo.com/top/summary?cate=realtimehot'
        # 模拟浏览器请求头
        headers = {
            'User-Agent': "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"}

        # 2.发送请求
        data = requests.get(url, headers=headers).text
        # 转换
        html = etree.HTML(data)

        # 3.解析数据         xpath 取出来的数据是一个列表。
        # 排名
        rank = html.xpath('//td[@class="td-01 ranktop"]/text()')
        # 事件
        affair = html.xpath('//td[@class="td-02"]/a/text()')
        affair.pop(0)  # 忽略微博热搜的置顶推荐内容。   # .pop(n) :删除列表第 n+1 个元素。
        # 热度
        view = html.xpath('//td[@class="td-02"]/span/text()')

        # 链接
        link = html.xpath('//td/a/@href')
        link_try = html.xpath('//td/a/@href_to')
        link.pop(0)
        # 处理链接数据（因为链接的 html 位置可能存在不同的地方，所以做了以下判断）
        index = 0
        for i, sku in enumerate(link):  # 这里的 i 和 sku 是什么？这里的 i 和最后保存时最后的代码里的 i 一样吗？
            if sku == "javascript:void(0);":
                link[i] = link_try[index]
                index += 1

        # 4.保存数据为 csv。
        date = datetime.now().strftime('%Y-%m-%d %H-%M-%S')

        # 删除没有热度的热搜（隐藏的热搜）
        rank_new = copy.deepcopy(rank)
        for r in range(len(rank_new)):
            if not rank_new[r].isdigit():
                rank.remove(rank_new[r])
                del affair[r]
                del link[r]

        with open('./' + date + '.csv', 'w', newline='', encoding='utf-8-sig')as f:
            writer = csv.writer(f)
            writer.writerow(['排名', '事件', '热度', '链接'])
            for i, rank in enumerate(rank):
                writer.writerow([rank, affair[i], view[i], 'https://s.weibo.com' + link[i]])
        # 5.睡眠120秒。
        time.sleep(120)
    except:
        print(time.strftime("%Y-%m-%d %X"))
        print("requests speed so high,need sleep!")
        time.sleep(10)
        print("continue...")


while True:
    doSth()

python 爬虫 xpath

阅读 4.6k

1 个回答

得票最新

dmxbb

18

发布于
2021-10-05

✓ 已被采纳

from selenium import webdriver
import time

DRIVER_PATH = ''  # chromdriver的地址

def selenium_chrome_test(url):
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--no-sandbox")
    # 启用无痕模式
    chrome_options.add_argument("--incognito")
    chrome_options.add_argument("--disable-gpu")
    # 取消自动软件控制提示
    chrome_options.add_argument("disable-infobars")
    prefs = {
        'profile.default_content_setting_values': {'notifications': 2}
    }
    chrome_options.add_experimental_option("prefs", prefs)
    global browser
    browser = webdriver.Chrome(DRIVER_PATH, chrome_options=chrome_options)
    browser.maximize_window() 
    browser.get(url)
    time.sleep(5)
    eles = browser.find_elements_by_xpath('//tbody//tr')
    for ele in eles:
        item_datas = ele.find_elements_by_xpath('./td')
        title = item_datas[1].text
        print(title)
        href = item_datas[1].find_element_by_xpath('./a').get_attribute('href')
        print(href)

if __name__ == '__main__':
    url = 'https://s.weibo.com/top/summary?cate=realtimehot'
    selenium_chrome_test(url=url)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

微博热搜是爬取不了吗？

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？