用Beautifulsoup lxml 解析网页,img能接解析出来,其他的解析结果为空列表
代码如下图
运行结果如下
html如下
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>The blah</title>
<link rel="stylesheet" type="text/css" href="main.css">
</head>
<body>
<div class="header">
<img src="images/blah.png">
<ul class="nav">
<li><a href="#">Home</a></li>
<li><a href="#">Site</a></li>
<li><a href="#">Other</a></li>
</ul>
</div>
<div class="main-content">
<h2>Article</h2>
<ul class="article">
<li>
<img src="images/0001.jpg" width="100" height="90">
<h3><a href="#">The blah</a></h3>
<p>This is a dangerously delicious cake.</p>
</li>
<li>
<img src="images/0002.jpg" width="100" height="90">
<h3><a href="#">The blah</a></h3>
<p>It's always taco night somewhere!</p>
</li>
<li>
<img src="images/0003.jpg" width="100" height="90">
<h3><a href="#">The blah</a></h3>
<p>Omelette you in on a little secret </p>
</li>
<li>
<img src="images/0004.jpg" width="100" height="90">
<h3><a href="#">The blah</a></h3>
<p>It's a sandwich. That's all we .</p>
</li>
</ul>
</div>
<div class="footer">
<p>© Mugglecoding</p>
</div>
</body>
</html>
<--!http://css3gen.com/box-shadow/-->
运行环境 Windows10 python 2.7.11
这句代码的意思是指在soup对象中,按照你给你的path来搜索元素!
path指的就是你要搜索的元素的位置。
给你解释下images的path的含义
表示第一步在
body
标签下寻找class='main-content'
的div
标签如果找到了就继续在这个div
标签下寻找ul标签,如果找到ul
标签就继续在这个ul
标签下寻找li
标签,如果li
标签找到了就继续在这个li
标签下找img
标签,如果找到了就把就这img
标签返回,所以最后的结果就是所有满足这个path的img
标签的集合所以你自己再读一下你说的空列表的几行代码