通常我们学习到的 爬虫 都是 抓取页面内容 ,并不需要重新镜像一个同样的内容呈现,
而今天看到一个 类似爬虫的 镜像一个网站的技术实现 链接
这像是镜像了一个网站,然后又不是 到像是 ifarme 进来一个网页一样,可以跟原网站一样任意操作,
可发现又不像 因为链接地址都变了, 会出现类似 68747470733a2f2f7777772e616d617a6f6e2e636f2e6a702f
这样的字符串, 是把链接地址加密了吗?
如果仅仅只是 代理 资源加载又是如何实现呢, 查看网页源码 发现并不是本分的 代理, 里面加入了 很多自定义的内容,比如自己的头部和浮动 底部内容, 难道是 使用 爬虫, 然后再修改 写入到数据库吗,然后如果想支持许多网站,是不是需要很庞大的数据库存储支持呢?
然而如果需要时时跟进 代理网站的 内容 ,该如何爬取,如果是 实时爬取得话,是否会很慢。
大数据爬虫该如何实现内容的跟进.
求个大神指导一下 技术分析实现.
看了半天,没太看懂表达什么。你是问怎么实现吗?
内容直接抓取过来。比如html,是什么就是什么,链接什么的,适当加一点修改。(每个网页可能做一些缓存,比如首页,频繁抓取,肯定需要做一些缓存,比如10分钟换一次。这样保证你一输入首页地址,直接给你出来结果,好像就访问他自己网站一样)
至于图片,我看见路径依然还是亚马逊的。
至于js和css,路径也都是亚马逊的。