爬虫，正则。requests从网站正则拿&# 32034; &# 23612; 拿不到。。

import requests
from bs4 import BeautifulSoup


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

soup = BeautifulSoup(t, "html.parser")

i = soup.find(id='productTitle')

text = i.text.strip()

非得使用正则表达式的话

import requests
import re


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

regex = re.compile(r'<div id="titleSection".*?">.*?<.*?>.*?<.*?>\s*(.*?)\s*</span>', re.S)

text = regex.findall(t)[0]

（以上代码在 Python3 中测试通过）

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

爬虫，正则。requests从网站正则拿&# 32034; &# 23612; 拿不到。。

你尚未登录，登录后可以

学信网的前端使用了什么技术隐藏字符？

sed命令替换数字时为何出现重复字符？

汉字被转为 =E5=8F=98=E9=87=8F，这是什么转码方式？

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？

php如何匹配markdown中能解析的图片格式?

这个匹配@用户的正则怎么写?