网址是,中国政府采购网http://www.ccgp.gov.cn/cggg/d...
采集红框内容,同时能有招标详情(即点击链接进去后的内容),能采集吗?
谈不上爬虫吧。程序请求一下url,得到返回数据,这里的返回数据是html,解析下就可以了。这里我用java实现下,使用的jsoup这个类库。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) throws Exception {
Document doc = Jsoup.connect("http://www.ccgp.gov.cn/cggg/dfgg/gkzb/").get();
Elements elements = doc.select(".main .c_list_bid>li");
for(Element element : elements){
Elements childs = element.children();
String name = childs.get(0).text();
String area = childs.get(2).text();
String person = childs.get(3).text();
System.out.println("招标公告名称:" + name);
System.out.println("地域:" + area);
System.out.println("采购人:" + person);
System.out.println("===============================");
}
}
}
解析的结果为:
招标公告名称:山东省荣成市中医院医院配电室与附楼架设电缆项目公开招标公告
地域:山东
采购人:荣成市中医院
===============================
招标公告名称:深圳市市场和质量监督管理委员会深圳商标受理窗口商标受理业务服务项目公开招标公告
地域:广东
采购人:深圳市市场和质量监督管理委员会
===============================
招标公告名称:深圳市龙岗区坂田街道市政事务中心龙岗坂田街道绿化垃圾粉碎场日常管理服务采购公开招标公告
地域:广东
采购人:深圳市龙岗区坂田街道市政事务中心
===============================
招标公告名称:北京市朝阳区水务建设管理办公室老河湾清淤工程施工公开招标公告
地域:北京
采购人:北京市朝阳区水务建设管理办公室
===============================
招标公告名称:河南省农业厅河南农业职业学院宠物美容、训导、保健、仿真实训建设项目包2(二次)招标公告
地域:河南
采购人:河南农业职业学院
===============================
招标公告名称:舞阳县民政局困难群众生活救助物资采购项目竞争性谈判公告
地域:河南
采购人:舞阳县民政局
===============================
招标公告名称:国家税务总局凌源市税务局综合业务办公用房消防系统改造工程公开招标公告
地域:辽宁
采购人:国家税务总局凌源市税务局
===============================
招标公告名称:国家税务总局敦化市税务局综合业务办公用房维修项目公开招标公告
地域:吉林
采购人:国家税务总局敦化市税务局
===============================
招标公告名称:北京化工大学质子转移反应飞行时间质谱仪采购项目公开招标公告
地域:北京
采购人:北京化工大学
===============================
招标公告名称:中国人民武装警察部队云南省总队机动第三支队2019年副食品采购(第2标段、第4标段)(二次)...
地域:云南
采购人:中国人民武装警察部队云南省总队机动第三支队
===============================
招标公告名称:中国邮政储蓄银行股份有限公司河南省分行“乐享邮惠”跨年度借记卡主题营销活动项目一标段招...
地域:河南
采购人:中国邮政储蓄银行股份有限公司河南省分行
===============================
招标公告名称:广州市妇女儿童医疗中心采购医疗设备(0809-1841GZG11C24)招标公告
地域:广东
采购人:广州市妇女儿童医疗中心
===============================
招标公告名称:黎平县农业局2018年水稻绿色高质高效、绿色增产增效及特色粮食项目杂稻种子采购采购公告
地域:贵州
采购人:黎平县农业局
===============================
招标公告名称:康平苑小区单元门、门禁维修工程竞争性磋商公告(二次)
地域:河南
采购人:详见公告正文
===============================
招标公告名称:黎平县农业局2018年水稻绿色高质高效、绿色增产增效及特色粮食项目肥料采购采购公告
地域:贵州
采购人:黎平县农业局
===============================
招标公告名称:德惠市公安局德惠市交通安全大整治新建工程公开招标
地域:吉林
采购人:德惠市公安局
===============================
招标公告名称:兰坪县金顶镇中心完小校园文化建设公开招标采购项目采购公告
地域:云南
采购人:兰坪县金顶镇中心校
===============================
招标公告名称:诸城市社会福利中心消防设施改造项目公开招标公告
地域:山东
采购人:诸城市民政局
===============================
招标公告名称:大连花园口经济区2019年节日彩灯采购项目【变更公告】
地域:辽宁
采购人:大连花园口经济区规划建设局
===============================
招标公告名称:交通银行股份有限公司承德分行后勤服务外包项目公开招标公告二次
地域:河北
采购人:交通银行股份有限公司河北省分行
===============================
详情采集类似。
15 回答8.4k 阅读
8 回答6.2k 阅读
3 回答2k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
2 回答3.9k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
2 回答3.2k 阅读✓ 已解决
网页上可见的数据都可以采集,所以你所说的内容都不是问题。
1、你可以自己学习爬虫来抓取数据,教程先看《从入门到精通》的前几篇就可以掌握了。
2、委托集搜客进行官方定制。
采集数据使用的代理也是很重要的,给你推荐几个 我们公司之前刚做的项目量比较小,终端也少当时用的站大爷 后来量大了终端也多了 就满足不了我了。现在使用的是代理云 他们家主要就是不限制使用终端,而且IP也是24小时源源不断产生的,比较适合数据采集公司来用,听说造数公司也在他们家使用代理,一天几个亿的请求连接数。。。。。