利用用 selenium IE driver来抓取一个 detail 页面页面部分元素如下:
<OBJECT id="IndiDocX" classid="clsid:43B180A2-396A-45CE-86D1-9680E4A9952C" CODEBASE="/IndiDocX.CAB#version=4,5,0,132" width=500 height=201 VIEWASTEXT>
<PARAM NAME="DbPath" VALUE="sinaaa4/bbb4809/swgl_4809.nsf">
<PARAM NAME="username" VALUE="张三">
<PARAM NAME="DocForm" VALUE="frmIndiDocs">
<PARAM NAME="Nodelfiles" VALUE="\3月会议计划(下发).xlsx\通知(3月份会议计划).sep\通知(3月份会议计划).gw">
<PARAM NAME="SessionID" VALUE="36F90903297F767289384D9ACA97CC4A">
<PARAM NAME="maindocunid" VALUE="DC5EF2F7F4DB79E648258523002C628E">
<PARAM NAME="UpdInfoDocID" VALUE="4825795A000CAA9048258523002C2987">
<PARAM NAME="FileInfos" VALUE="
<!1!>3BA9CCE141782F12482585210023E5A4
<file_unid>132277778533013248NH</file_unid>
<file_name>3月会议计划(下发).xlsx</file_name>
<Ext>.xlsx</Ext>
<doc_unid>4825795A000CAA9048258523001F25C6</doc_unid>
</!1!>
<!2!>3BA9CCE141782F12482585210023E5A4
<file_unid>132279467934597890NT</file_unid>
<file_name>通知(3月份会议计划).sep</file_name>
<Ext></Ext>
<doc_unid>4825795A000CAA9048258523001F25C8</doc_unid>
</!2!>
<!3!>3BA9CCE141782F12482585210023E5A4
<file_unid>132279468239173323NP</file_unid>
<file_name>通知(3月份会议计划).gw</file_name>
<Ext></Ext>
<doc_unid>4825795A000CAA9048258523001F25CB</doc_unid>
</!3!>">
</OBJECT>
以下代码可在chrome driver中运行
file_infos = driver.find_element_by_xpath('.//object[@id="IndiDocX"]/param[@name="FileInfos"]').get_attribute("value")
可现在必须用 IE driver(这是必要条件!!)来实现抓取几个的 value 值。
解决,通过获得driver的源码
page_souce方法,然后处理字符串获得