火车采集器(LocoySpider)是一款信息挖掘软件,掌握基本用法就可以很容易从网页中抓取图片&文本,通过cms模板参数,自定义采集参数内容,它能采集信息内容并且支持在线发布,这不,搭建一个漫画网站,就容易多啦
版本
我所使用的是火车采集器7.6企业破解版
功能简单介绍
1.多任务、多线程
2.数据在采集时自动保存到关系数据库中,数据结构自动调整。
3.信息收集任务可以在停止后继续从断点收集信息。
4.支持网站cookie,支持网站可视化登录
5.将采集到的二进制文件(如图片、音乐、软件、文档等)下载到本地
6.可以根据规则用定义的内容替换收集的结果。
7.软件可根据用户设置和实际情况自动删除重复内容和重复网址。
8.通过定义的接口,将收集到的结果数据发布到任何内容管理系统和指定的数据库。
开始吧
目标采集漫画网站
我这里采集的是国漫网站:满客栈
选择它的原因是因为好采集,找了这么多网站就它好采,没有分页,没有Ajax,没有麻烦的采集规则 对萌新来说真的非常友好
打开软件
当你下载好软件,也解压好了,发现找不到火车头采集器.exe,那是因为它叫LocopyPlaform.exe,不要傻乎乎的以为下错东西了,确实没有下错东西,还是找不到LocopyPlaform.exe,那就看看你解压的时候,是不是被防火墙给拐走了
新建任务
测试文件下新建了一个名为满客栈的任务
写规则
这里分为四个部分:
- 采集网址
- 采集内容
- 发布内容
- 高级设置
采集网址规则
点进任务,在起始网址栏目选择添加选项,如图示:
根据步骤2,填写你所要采集的起始网址
起始网址:
也就是所说的大页面,啥是大页面。比方说,我这里的起始网址是https://www.mkzhan.com/category/(分类页面)
在这一个网址中,里面包含了很多漫画内容,每一部漫画里面又有独自的页面,一个总览的页面涵盖很多所属内容,我将它定义为大页面。
但是你可以发现实际上我写的是这个网址:
https://www.mkzhan.com/catego...*
采集漫画可不止一个页面吧,只采集一个页面,那多没劲啊。你试试按下翻页按钮,翻页的时候发现网址除了page后面的数字有变化,其他都没变,这种有规律的变化,你不用修改过多的东西,只需要将数字用通配符*通配一下,就可以采取多个页面
我这里设置的是5页,所以预览里面出现了5个页面网址,按你需求设置多少页,但是测试前期最好页数越少越好,不然测试过程很煎熬(主要是慢)
多级网址获取
点击添加
进入之后选择手动填写链接地址规则
- 脚本规则
这里写的脚本规则,应该要跑回去你的大页面(起始网址),里面有很多部漫画内容,这里我们只选择其中一部就好了
鼠标指向漫画名,右键点击检索,就会弹出网页元素(如下图)
我们要的就是里面的href="/209596/",要精准定位想要获取的内容,所以把整一个p标签给复制过去了
因为我只需要href里面的内容,所以将无关紧要的内容用通配符通配掉(这里统配了漫画名:圣祖)
把需要的内容用参数代替,按右边的参数键
- 实际链接
当我点击圣祖这个漫画时,返回给我的url是https://www.mkzhan.com/209596/,那么我想得到更多漫画的url地址,就把刚才获取的参数替换掉209596这个href
所以最后写上的实际地址是:https://www.mkzhan.com/【参数1】/
这里的参数是和上面规则的参数是一一对应的
- 测试一下
这就显示,你已经采集到每一部漫画的url了(如果不确定自己采集到的url是否正确,把它复制过去看看网页能不能打开,能打开那就是成功了)
采集内容规则
这里小浣熊cms官方手册传送门
参照手册的火车头api来写表单字段
先黏贴需要用到手册的内容,如下:(详情还是请你看手册)
- 采集api地址示例:域名/api.php/postbot/save。
- 请求方式:post
- 表单字段及说明:
- book_name 漫画名
- nick_name 漫画别名
- tags 分类,多个分类用|隔开
- author 作者名字
- end 状态,1代表完结,0代表连载中
- cover_url 封面图远程地址
- chapter_name 章节名
- area_id 地区id
- images 由图片标签组成的字符串,示例:
<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">
- chapter_order 章节序
- summary 漫画简介
- api_key 后台配置的api_key
- src 用来区别采集源,自己写
- src_url 用来唯一定义每个漫画,可以是该漫画的url,也可以是该漫画在被采集站的id
- c_src_url 用来唯一定义每个章节,与src_url同理
哇,要写好多表单字段,好麻烦噢(小声)
漫画名字段
先来写第一个表单字段:漫画名
选择一部漫画,进入当前漫画的url,检索漫画名,找到它的元素位置
把上面的p标签内容复制放到正则匹配内容里面,如下图
#将原先的p标签内容:
<p class="comic-title j-comic-title">圣祖</p>
#改为:
<p class="comic-title j-comic-title">[参数]</p>
多页属性:
先放测试结果:
简单解释一下多页原理(解释的很乱,可能听的一头雾水)
这里有点像回溯,当前找不到目标就返回上一层。
注意:我所填写的测试url是:https://www.mkzhan.com/209596...
这个页面所展示的是漫画每一话中的页面(含漫画正文的),而漫画名所属的url是:https://www.mkzhan.com/209596/
也就是说,火车采集器是从https://www.mkzhan.com/209596...这个url开始采集的,如果找不到目标字段,就会返回到https://www.mkzhan.com/209596/这个这个url继续寻找目标字段
多页设置
新建多页管理,同样是用正则匹配,注意一点是,在https://www.mkzhan.com/209596...页面检索章节的href
#检索到的内容:
<h1 class="comic-title"><a class="last-crumb" href="/209596/504742.html">序章</a></h1>
#修改后:
<h1 class="comic-title"><a class="last-crumb" href="/[参数]/[参数].html">(*)</a></h1>
#组合结果:
https://www.mkzhan.com/[参数1]
这样多页就做好了
对,没错。看着手册有这么多字段,你都要逐个逐个写进去,不过如果你只是纯属玩玩,有些字段可以不写进去,但是别自定义新增字段,我用的这个cms版本还不支持自定义字段,不然到时候你死活发布不成功
因为很多操作都是相同的,会一个,基本剩下的都可以自行搞定,我这里就挑几个来写,要全写,啊,打咩
我挑tags,end和images
tags字段
手册要求:
tags 分类,多个分类用|隔开
按照之前采集的方法,得到的结果是这样的:
完全不符合官方的要求,这里只需做一点修改即可
在当前字段下,按添加按钮,选择内容替换选项,将空格符改为|就好了
end字段
end字段要求:1代表完结,0代表连载中
解决问题,用替换内容就好了,把采集到的关键字,如”完结“,”连载中“,”已完结“,”未完结“,替换成对应的1和0
具体操作还是和tags分类操作相似,这里就不赘述了
images字段
images字段要求,将采集到的图集链接作进一步修改,改成这样:
<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">
但是!!!
这是一个巨大的坑!我当前使用的5.0版本就是这个坑!搞得我后面发布一直不成功!
我特意跑去看了images的对应代码,发现,改成这个样子才是正确的:
http://www.m.com/1.jpg,http://www.m.com/2.jpg,http://www.m.com/3.jpg
中间用逗号分隔
等所有字段都填写好之后,接下来就是第三步分啦!
发布内容设置
首先这里需要写web发布配置,还记得官方手册的那10几个字段吗,就是让你写规则写到手软的那几个
这里又要用上它们了
再说一次(好麻烦啊!)
先放6个步骤:
新建web发布配置就不多说了,简单,第5步骤这里的地址后缀,直接复制官网的api地址上去就好
/api.php/postbot/save
第6步,它来了,点击新建表单项
对着表单字段说明来写,注意表单名千万别写错,只要一一对应了,后面发布都不是问题!
#就是这个表单名
1.book_name 漫画名
2.nick_name 漫画别名
3.tags 分类
.......
写好之后保存模块
选择你刚刚写好的web配置作为发布模块,网站根地址写你的域名地址,例如:xxx.example@example.com
选择不需要登陆http请求选项,命名好配置名,ok,这就已经整装待发的可以开始采集与发布了
收尾
点击开始任务
愉快的采集发布之旅就要开始啦!放着让它采集就好了,因为它采集真的非常慢非常慢,如果你想测试是否能发布成功,把当初设置的5个翻页改为1个,尽量减少采集数量,这样它虽然是慢,但是减少一定的数量,还是会相对快一些些的(bushi)
本片文章纯属是填自己挖的坑和摔过的坑,坑坑洼洼的,记录着也好,如果遇到什么新的问题,仔细看官方文档,再不行,就去琢磨源码。这个小浣熊cms是有官方qq群的,如果你所遇到的问题没有解决,可以到群里面去问
我当时就是不知道哪里来的稚气,喜欢折腾,遇到困难不去问,而是去啃源码,草
哈哈哈不知不觉又水了一篇文章,溜了溜了,有空再挖坑!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。