在练习爬虫时,爬去豆瓣正在上映的电影。
如下图。bs思路是首先获取到整个正在上映的div,然后在获取下面的li标签元素。
li标签第一个是电影详情,下面还有四个子标签。 我只想获取到电影内容这一恶搞标签。总是会获取到下面的子标签。 试了calss=list-item 或者data-categeory=nowplaying 都不行
soup=BeautifulSoup(response.text,"lxml")
movies_lists=soup.find_all("div",class_="mod-bd")
nowplaying_infos=movies_lists[0].find_all("li",attrs={"class":"list-item"})
for movie in nowplaying_infos:
print(movie.find("li"))
它是会选择你所指定的那个标签包含的所有内容的,你在选择了所有的
ui-list-item
那一层之后,筛选出你需要的字段就行了。