请教如何把HTML中的文本提取出来 放入字典中

请教python如何把下面网页中的文本提取出来并写入到字典中:例如 movie={"导演":"李志毅","编剧":"李志毅","主演":"梁家辉/郑伊健/陈慧琳",.....} 谢谢!

【HTML网页源码】如下:

<div id="movie_info" style="height: 100%;">
导演: 
<a href="https://www.btdx8.com/tag/%e6%9d%8e%e5%bf%97%e6%af%85" rel="bookmark">李志毅</a>
<br>
编剧: 李志毅
<br> 
主演: 
<a href="https://www.btdx8.com/tag/%e6%a2%81%e5%ae%b6%e8%be%89" rel="bookmark">梁家辉</a> 
/ 
<a href="https://www.btdx8.com/tag/%e9%83%91%e4%bc%8a%e5%81%a5" rel="bookmark">郑伊健</a> 
/ 
<a href="https://www.btdx8.com/tag/%e9%99%88%e6%85%a7%e7%90%b3" rel="bookmark">陈慧琳</a> 
/ 
<a href="https://www.btdx8.com/tag/%e6%9b%be%e5%bf%97%e4%bc%9f" rel="bookmark">曾志伟</a>
 / 
<a href="https://www.btdx8.com/tag/%e7%8e%8b%e7%a5%96%e8%93%9d" rel="bookmark">王祖蓝</a>
 / 
<a href="https://www.btdx8.com/tag/%e7%8e%8b%e7%b4%ab%e9%80%b8" rel="bookmark">王紫逸</a>
 / 
<a href="https://www.btdx8.com/tag/%e7%8e%8b%e6%a7%8a" rel="bookmark">王槊</a> 
/ 
<a href="https://www.btdx8.com/tag/%e5%88%98%e7%a2%a7%e4%b8%bd" rel="bookmark">刘碧丽</a>
 / 
<a href="https://www.btdx8.com/tag/%e5%bb%96%e5%90%af%e6%99%ba" rel="bookmark">廖启智</a> 
/ 
<a href="https://www.btdx8.com/tag/%e8%bd%a6%e5%a9%89%e5%a9%89" rel="bookmark">车婉婉</a> 
/ 
<a href="https://www.btdx8.com/tag/%e9%bb%8e%e8%8a%b7%e7%8f%8a" rel="bookmark">黎芷珊</a>
 / 
<a href="https://www.btdx8.com/tag/%e9%99%88%e6%bb%a2" rel="bookmark">陈滢</a><br> 
类型: 喜剧 / 动作 / 爱情 / 悬疑
<br> 
制片国家/地区: 中国大陆 / 香港
<br> 
语言: 汉语普通话 / 粤语
<br> 
上映日期: 2014-03-21(中国大陆) / 2014-03-27(香港)
<br> 
片长: 105分钟
<br> 
又名: 贩马记 / Horseplay</div>

【原图样式】:

图片描述

阅读 3.5k
4 个回答

太久没用python了, 提一个思路。

你可以先找到 div 这个元素,在得到他的文本值(不包含html内容),在使用正则

把每个字段提取出来没问题吧,比如主演、导演等信息。
例如:

导演 = re.search('>(.*?)<',html).group(1) #实际情况不能用中文作为变量名

先可以创建一个空字典:
data = {}
data['导演'] = 导演
这样就把导演这个值写入了字典。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏