简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?

简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?随机字符串是如何定位机器的?假如文章存储几个T大小,那么cdn缓存到全国各地,开削很大吧?

阅读 2.9k
2 个回答

由此推断……啥也推断不出来。

就是 HashId 的思路,隐藏掉数据库自增 ID,防爬虫的。很多网站都会这么搞,比如 YouTube 的视频 ID,这跟语言跟框架都无关,甚至并没有一个标准的实现规则。

文章存储几个 T 大小,那么 CDN 缓存到全国各地,开削很大吧? 你指存储还是流量?存储的话这就是个小微客户,没多少钱,如果后面大头流量费能谈下来,这部分甚至可以算作白送;如果是流量总值,每月甚至每日就这些量的话也没多少钱;如果是流量峰值,那确实是大客户,一年几千万上亿的支出,但一个文本和小图片居多的博客类网站,流量峰值怎么可能会这么高?

不过我观察了几篇文章,没发现页面本身有使用 CDN 的迹象,只是其中的图片等外链用了 CDN,看节点是用的七牛云。

难道没可能是人家不想让你知道真实ID是啥?有可能是个非对称加密,也有可能是个非十进制计数。省的被无脑爬虫做遍历,或者查看相关内容?

机器定位这个没看懂,不过你可以取id的前缀呀,比如说 abcdefg000000 和 abcdefg000001 在一个表里,abcdeff000000 和 abcdeff000001 在另一个表里。

cdn缓存我认为他们不会做。文章这个东西其实是可变的,作者改了但是用户更新不及时,这体验也太差了。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题