为什么用Python3写的爬虫爬取到的图片无法打开?

发布于
2017-10-30

新手上路，请多包涵

为什么用Python3写的爬虫爬取到的图片无法打开

# -*- coding:utf8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.meizitu.com/a/5582.html'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'lxml')
imgs = soup.select('#picture > p > img')
mm_imgs = []
for img in imgs:
    src = img.get('src')
    mm_imgs.append(src)
    for mm in mm_imgs:
        filename = '/'+(str(mm)[-20:]).replace('/','-')

        target = "./{}".format(filename)

    with open(target, "wb") as fs:
        fs.write(req.content)

    print("%s => %s" % (mm, target))

图片描述

python

阅读 12.7k

2 个回答

得票最新

prolifes

11.2k51637

发布于
2017-10-31

✓ 已被采纳

这里你拿到图片的src之后没有去请求而是用的原url的content, 原url的content是html
你需要每个图片src重新请求一次，并且在请求时带上User-Agent

# -*- coding:utf8 -*-
import requests
import os
from bs4 import BeautifulSoup
url = 'http://www.meizitu.com/a/5582.html'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'lxml')
imgs = soup.select('#picture > p > img')
mm_imgs = []

if not os.path.exists('uploads'):
    os.mkdir('uploads')

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
for img in imgs:
    src = img.get('src')
    filename = (src[-18:]).replace('/','-')
    target = "uploads/{}".format(filename)
    r = requests.get(src, headers=headers)
    with open(target, "wb") as fs:
        fs.write(r.content)

    print("%s => %s" % (src, target))

katios

29731622

发布于
2017-10-31

这个网站还有做了一定的反爬虫策略的。你需要带上你的headers去请求

headers ={'Host':'mm.chinasareview.com',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',}

而不是堂而皇之的告诉人家你是爬虫啊

最后附上一张图吧，还是可以爬取的
图片描述

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

为什么用Python3写的爬虫爬取到的图片无法打开?

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

为什么用Python3写的爬虫爬取到的图片无法打开?

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？