爬虫爬下来都是空格

Question

爬虫爬下来都是空格

陈檀明

21820

发布于
2018-08-06

实习僧网站爬取，浏览器看起来是这样的网页源码是这样的，我查了，这是一种替代字体达到反扒效果的技术，爬下来以后做字体映射就可以了。但我现在爬下来都是空格，没法处理啊。

爬虫代码非常简单

求指教。

python

阅读 2.9k

1 个回答

得票最新

gxcuizy

2k1113

发布于
2018-08-07

换一张方案实施

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests

# 程序主入口
if __name__ == "__main__":
    """模仿浏览器，请求web的html信息"""
    url = 'https://www.shixiseng.com/interns/c-110100_st-intern_?k=Python'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'
    }
    request = requests.get(url, headers=headers)
    html_text = request.text
    print(html_text)

如果你需要分析拿到的html的话引入from bs4 import BeautifulSoup处理。
希望能帮到你……

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

爬虫爬下来都是空格

换一张方案实施

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？