微博和贴吧都是国内数一数二的PHP构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?
我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?
微博和贴吧都是国内数一数二的PHP构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?
我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?
CLIENT
Load from cache or api
API
Request Top Data
Checking cache if found then return cache data
if not found load from database then cache it and return data
分词系统是一个独立的系统,可能是离线的,在数据计算平台产生的一个TOP LIST结果。
如果你问这种系统如何处理大数据进行分词的话,这个....有非常多的解决方案,廉价的节点可以计算。这个不适合。
当然,除了技术上实现,可能就是谁的钱多谁上,后台维护一个普通的LIST而已,我不懂~
5 回答4.8k 阅读✓ 已解决
3 回答2k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
2 回答3.9k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
2 回答3.2k 阅读✓ 已解决
4 回答2.4k 阅读✓ 已解决
列表前的文本是手工加的,非机器自动生成。
后面的数字猜测是在有带关键字微博发出时,向指定缓存字段+1。这些数据其实非常不准确,然而也并没有要准确的必要。