我想抓取以下网页中开头部分的
5,165,228,000 和 July 21, 2017 这两个数据,如截图所示,
https://www.sec.gov/Archives/...
已经试过在火车头采集器里面写了正则匹配,但是抓不出来,
<body(?<content>d{1,}(,d{3})+ )outstanding匹配5,165,228,000
as of(?<content>w{3,}&.{1,7};d{1,},s?d{4})name="匹配July 21, 2017
求教原因,或者python抓取的方法,多谢~
用正则或者ocr,xpath估计也行,自己试试吧,为什么非要用火车头?