上一篇讲到爬虫,爬取页面里的文字内容是最基础的,除此之外我还想要整个网页的截图怎么办呢。Page2Images就可以上场啦。在Leanstack上,这类服务被称为Screenshot as a Service(又一个SaaS...)。这么看来Service as a Service不远了啊(是说就是consultant么,那有没有consultant的consultant service呢)。
作为一个肤浅的服务,最重要的就是...脸。相比它的同行URL2PNG,Page2Images的小章鱼和Github有一拼,所以,好了就它了。突然想到,要是有个服务让我一输入名字就显示出Ta的脸,该是有多...肤浅。于是我搜了下“冯小平”,找到了第一张单脸照。
好,等我出名以后再找这种服务...
为啥Images是复数
从名字Page2Images可以看出,他们的数据库试图设计成一对多的关系。因为,“男人不止一面”。一个页面也可以有很多Screenshot,尤其是在这个Responsive肆虐的世界。好,你想到了Phone,Pad,Desktop不同尺寸是不是?嗯,直接来看最简单的使用方法:在你的页面插入一个标签,里面显示某个网页的某个尺寸的截图。章鱼给了个简单易用的工具来帮助你生成想要尺寸的截图。出来的HTML差不多长这样。
<img id=”p2i_demo” src=”http://api.page2images.com/directlink?p2i_url=http://apple.com&p2i_device=4&p2i_screen=768×1024&p2i_key=b00cc2e6ac5e8f**″ />
好了我知道你想说:我这里现实的没有框啊!嗯,自己找参数去。
好了我知道你又想说什么,为啥目标URL不encode啊!呃,其实吧,不encode又怎么着...嗯,除非你蛋疼的爬到一个URL
http://service.exmail.qq.com/cgi-bin/help?u=0&p2i_device=6&id=28
懂了吗?没懂去锻炼锻炼。
Direct Linking API KEY & Rest API KEY
这类服务为了收钱,一定得把收费的部分做到比较严谨。所以Page2Images里把API key分成两类,Direct Link和Rest API。前者用于在前端页面使用,比如img,javascript,后者用于服务端调用。所以前者除了要验证Token以外,还要被绑定在某个Domain或上,而后者只要带着对的Token就能访问。(所以如果有一个建站工具里,a.xxx.com是一个站,如果创建Direct Link Key的时候没有注意,Domain写了*.xxx.com,则b.xxx.com也能用前者的Token了)。
为毛比URL2PNG贵
URL2PNG不提供免费账户,但Page2Images提供,为毛呢?Price Table里有一个很重要的参数:Hits(Cached),然后每天Unique URLs是100个。懂了吧,最大负担就是每个账号每天100个请求了。
最后感慨一下,人家做这么个都能收费。哎...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。