链接如下:
http://aaxxy.com/vod-detail-i...
使用requests请求此连接,然后用BeautifulSoup解析获取 dl > dd > a 标签的内容,其中:
上图所示的4个 a 标签的内容只能获取到第一个“电影”,后面三个“动作”“喜剧”“剧情”获取不到,输出结果为None:
使用pyquery解析的话连None都不显示,直接跳过这三个标签了:
请问为什么会这样?
代码如下:
bs4解析:
web_data = requests.get('http://aaxxy.com/vod-detail-id-10.html ')
web_data.encoding = 'utf-8'
soup = BeautifulSoup(web_data.text,'lxml')
actor = soup.select('dl > dd > a')
print(actor)
for i in actor:
print(i.string)
pyquery解析:
web_data = requests.get('http://aaxxy.com/vod-detail-id-10.html ')
web_data.encoding = 'utf-8'
pq = pyquery.PyQuery(web_data.text)
print(pq('dl > dd >a').text())
因为取到的html A标签不规整,只有电影这个标签是规整的,其他的A标记都提前闭合了