python爬过过来的html数据里面有一段数据,我想取里面的链接地址和标题,以及发布的日期,但是使用find_all()获取不到里面的数据,应该如何获取?
爬过来的数据格式如下:
<record><![CDATA[
<tr><td height="26" align="left" style="border-bottom:dashed 1px #ccc"><span style="padding-right:8px;"><img src="/picture/0/s1609271437127167930.gif" align="absmiddle" border="0"></span><a style="font-size:12px;" href='/art/2018/1/2/art_275_32953.html' class='bt_link' title='考核合格名单的通知' target="_blank">2017年度学科带头人考核合格名单的通知</a></td><td width="80" align="center" class="bt_time" style="border-bottom:dashed 1px #ccc">[2018-01-02]</td></tr>]]></record>
根据您提出胡思路,有了自己的解决方案。
先用BS获取到目标网页数据段信息,再用正则表达取得里面的数据。