segmentfault的相关标签是如何算出来的？

比如，
标签：PHP，相关标签为：mysql,apache,html,linux
标签：node.js, 相关标签为：javascript,php,angularjs

本站的提问格式如下：
标题：如何使用PHP获得当前系统时间？
标签: php,linux

标题：linux下如何安装PHP，mysql,apache？
标签: php,linux,mysql,apache

如上，跟php相关的就有：linux,mysql,apache...

阅读 6.7k

這涉及到相關度的計算

如果短語 A 在某一文本中出現的概率跟短語 B 在某一文本中出現的概率無關，那麼這二者一起出現的概率就等於它們分別出現的概率的乘積。

二者相關度愈高，在其一出現的前提之下，另一個出現的概率就愈接近於一，二者一起出現的概率也就愈接近於它們單獨出現的概率當中的最小值。

反之，二者同時出現的概率和單獨出現的概率的乘積的比值愈高，在其一出現的前提之下，另一個出現的概率就愈接近於一，二者的相關度也就愈高。

數學基礎：

設事件 A 為短語 A 在文本 X 中出現
設事件 B 為短語 B 在文本 X 中出現

則有 P(A^B)=P(A)*P(B|A)=P(B)*P(A|B)
所以 P(A^B)/(P(A)*P(B))=P(B|A)/P(B)=P(A|B)/P(A)