我想提取:
- 来自以下
image
标记的 src 的文本和 div
类数据中的锚标签文本
我成功地提取了 img src,但是我无法从锚标记中提取文本。
<a class="title" href="http://www.amazon.com/Nikon-COOLPIX-Digital-Camera-NIKKOR/dp/B0073HSK0K/ref=sr_1_1?s=electronics&ie=UTF8&qid=1343628292&sr=1-1&keywords=digital+camera">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a>
这是整个 HTML 页面 的链接。
这是我的代码:
for div in soup.findAll('div', attrs={'class':'image'}):
print "\n"
for data in div.findNextSibling('div', attrs={'class':'data'}):
for a in data.findAll('a', attrs={'class':'title'}):
print a.text
for img in div.findAll('img'):
print img['src']
我想做的是 提取图像 src (链接)和 div class=data
中的标题,例如:
<a class="title" href="http://www.amazon.com/Nikon-COOLPIX-Digital-Camera-NIKKOR/dp/B0073HSK0K/ref=sr_1_1?s=electronics&ie=UTF8&qid=1343628292&sr=1-1&keywords=digital+camera">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a>
应该提取:
Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)
原文由 add-semi-colons 发布,翻译遵循 CC BY-SA 4.0 许可协议
以上所有答案确实帮助我构建我的答案,因此我投票支持其他用户提出的所有答案:但我最终将我自己的答案放在一起来解决我正在处理的确切问题:
正如问题明确定义的那样,我必须访问 dom 结构中的一些兄弟姐妹及其孩子:此解决方案将遍历 dom 结构中的图像并使用产品标题构造图像名称并将图像保存到本地目录。