2，这样的话，爬虫从1-10000就可以爬取所有文章，应该hash一下

ufdf

6.7k93617709

发布于
2017-08-17

一般用什么hash方案呢？
md5嘛

go http php

阅读 7.6k

15 个回答

得票最新

东方星痕

1.8k106181

发布于
2017-08-17

只要公开的都有办法爬，包括含登陆验证的

xialeistudio

21.5k42658

发布于
2017-08-17

建表的时候处理下

id,hash(随机字符串就好，6-8位)

id只给内部用，不要返回给前台，前台使用hash读取文章

9527

495614

发布于
2017-08-17

基本想要爬你的话，你怎么hash都没用。

vishun

1.2k2311

发布于
2017-08-17

可以谷歌关键字’slug‘，很多都是直接用英文或者是拼音展示吧，当然了hash也可以,或者就看下segmentfault的设置啊，—_-!

yszou

4.9k2718

发布于
2017-08-17

更新于
2017-08-17

还 hash ，你哪里看的文章乱写的啊 -_-

hash 之后，你自己都无法知道原来的 id 是什么啦。

如果要非可预测性的主键，成熟方案是使用 uuid 。

当然，你不怕麻烦，专门拿一列存一个 showId ，它是“非可预测值”（这个值可以是 id 的 hash ，加 salt）。

石头记

14239

发布于
2017-08-17

设置不规则ID,只能增加爬虫难度，没办法杜绝。
爬虫会从上级列表页面获取文章连接。所以说这个问题基本杜绝不了

你经过一番折腾后找到了方案，比如hash了下，那么用户从列表页点进来是hash过的链接，难道爬虫就不能从列表页进来？

daryl

4.7k2721

发布于
2017-08-17

不需要的，你能想到的，爬虫都想到了。你想不到的，可能爬虫也想到了。。。

志田未来

发布于
2017-08-18

新手上路，请多包涵

https://github.com/ivanakimov...
这个应该可以满足你的需求
类似 YouTube 的 url 风格

Bankroft

721917

发布于
2017-08-19

公开的数据没办法杜绝爬虫的，除非需要登陆，限制注册

ufdf

6.7k93617709

发布于
2017-09-09

如果ID是连续的，恶意用户的扒取工作就非常容易做了，直接按照顺序下载指定URL即可；如果是订单号就更危险了，竞对可以直接知道我们一天的单量。所以在一些应用场景下，会需要ID无规则、不规则。

lrh3321

455117

发布于
2017-09-09

找个大数和id做异或运算。
用uuid或者ObjectId做主键也行。
哈希以后你自己都不知道它是哪个id，除非再建一个列存hash值

testnullundefine

2.5k32141

发布于
2017-09-09

对外开放的都可以爬的，靠1-10000这样爬的应该只是新新手了吧，根据你的页面的结构和页内连接一样能爬。

真的不想那么容易的被爬，你可以做一个id，在hash一套验证码，请求id的时候顺便把hash验证一下。

JVVV

59316

发布于
2017-08-17

把请求区分开来，也就是将请求分为有效请求和无效请求

勤奋的小小尘

1.1k146

发布于
2017-08-18

encode一下，然后用的时候再decode，就得出正确的id了，这样不是很方便吗，为什么要存储，根本不需要存

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

客户端直接显示id不是一种好方案，譬如/article/2，这样的话，爬虫从1-10000就可以爬取所有文章，应该hash一下

你尚未登录，登录后可以

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

cURL error 77: error setting certificate file: /etc/ssl/certs/ca-certificates.crt 如何处理?

TP6指定时间段内填写指定内容？

在宝塔里这种情况下怎么使用80端口？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

如何在不进入main.go目录的情况下使用Go热更新工具fresh？

如何在Go语言中有效捕获和处理错误，避免遗漏？

客户端直接显示id不是一种好方案，譬如/article/2，这样的话，爬虫从1-10000就可以爬取所有文章，应该hash一下

你尚未登录，登录后可以

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

cURL error 77: error setting certificate file: /etc/ssl/certs/ca-certificates.crt 如何处理?

TP6指定时间段内填写指定内容？

在宝塔里这种情况下怎么使用80端口？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

如何在不进入main.go目录的情况下使用Go热更新工具fresh？

如何在Go语言中有效捕获和处理错误，避免遗漏？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?