关于网页爬虫任意门的技术实现 , 镜像爬虫网站数据更新技术解析

Question

通常我们学习到的爬虫都是抓取页面内容 ,并不需要重新镜像一个同样的内容呈现,

而今天看到一个类似爬虫的镜像一个网站的技术实现链接

这像是镜像了一个网站,然后又不是到像是 ifarme 进来一个网页一样，可以跟原网站一样任意操作，

可发现又不像因为链接地址都变了, 会出现类似 68747470733a2f2f7777772e616d617a6f6e2e636f2e6a702f
这样的字符串, 是把链接地址加密了吗？

如果仅仅只是代理资源加载又是如何实现呢, 查看网页源码发现并不是本分的代理, 里面加入了很多自定义的内容,比如自己的头部和浮动底部内容, 难道是使用爬虫, 然后再修改写入到数据库吗，然后如果想支持许多网站，是不是需要很庞大的数据库存储支持呢？

然而如果需要时时跟进代理网站的内容，该如何爬取，如果是实时爬取得话，是否会很慢。

大数据爬虫该如何实现内容的跟进.

求个大神指导一下技术分析实现.

阅读 3.7k

1 个回答

得票最新

看了半天，没太看懂表达什么。你是问怎么实现吗？
内容直接抓取过来。比如html，是什么就是什么，链接什么的，适当加一点修改。（每个网页可能做一些缓存，比如首页，频繁抓取，肯定需要做一些缓存，比如10分钟换一次。这样保证你一输入首页地址，直接给你出来结果，好像就访问他自己网站一样）

至于图片，我看见路径依然还是亚马逊的。
至于js和css，路径也都是亚马逊的。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题

关于网页爬虫 任意门的技术实现 , 镜像爬虫网站数据更新技术解析