参考资料

主要参考了以下两篇文章:

互联网时代的社会语言学:基于SNS的文本数据挖掘
基于信息熵和互信息的新词识别

分词依据

对于一个给定的文本,从中抽取一个片段,如果这个片段的内部成分搭配稳定,并且左右搭配很丰富,则认为是一个词。将这样的片段抽取出来,按照出现的频率排序,选择排在前面的那些作为我们发现的词语。再进一步通过固有词典过滤掉已经存在的“旧词”,剩下的就是“新词”了。
如何理解“内部成分搭配稳定”和“左右搭配丰富”呢?
假设有2个字符组成的片段“AB”出现在文本中若干次,如果A出现了,B总会紧接着出现,B出现了,A也出现,即A、B总是成对出现,而不会出现AC、AD或者EB、BF这种,我们就认为“AB”这个片段的内部成分搭配是最稳定的,A或B单独出现的次数越多,则“AB”的稳定性越低。
即使A、B总是一起出现,但是假设“AB”后面跟的字符总是C,即“AB”的右搭配只有一个,我们也认为“AB”不能成词(可能“ABC”是一个词也说不定),如果“AB”后面可以接CDEFG……各种字,我们就说“AB”的右搭配很丰富,左搭配同理。
内部搭配的稳定性和左右搭配的丰富程度涉及到两个概念,“互信息”和“信息熵

互信息的概念

以下摘自维基百科

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。

一般地,两个离散随机变量 X 和 Y 的互信息可以定义为:

由于我们在分词的时候是不考虑同义词的情况的,即不同的字符串代表不同的词。对于一个已知的文本片段和它的分割点,这两个“随机变量”只有一个值,上面的公式可以简化为:

$$I(x;y) = log(\cfrac{p(x,y)}{p(x)p(y)})$$

对于一个长度大于2的文本片段,它的分割点不止一个,例如“ABC”可以分为“AB”和“C”或者“A”和“BC”,这时候一个文本片段就会有多个互信息值,我们取最小的一个作为词的聚合度。
为什么要取最小的呢?考虑这样一种实际情况,“的蝙蝠”这个文本片段, 如果把它分割成“的蝙”和“蝠”这两个子片段,它的聚合度是很高的,“的蝙”几乎不会单独出现,“蝠”也很少和其他字搭配,但是"的蝙蝠"却不是一个词。因为把它拆成“的”和“蝙蝠”后,聚合度是很低的,因为“的”有无数种搭配,“蝙蝠”也可以组合成“只蝙蝠”、“蝙蝠侠”等。
实际上,通过这种方法发现的新词以两字词居多,三字词较少,而且多是由两字词再加一个字组成的。这可能和中国人的用词习惯有关。聚合度很高的三字词(“加拿大”、“红领巾”)不多见,但是,四字词反而多了一些(成语)。
而且,由两字词加一个字组成的词可能和那个两字词都作为新词被抽出来。例如前面提到的“蝙蝠侠”这个词,如果训练文本是关于影视的,“蝙蝠侠”很可能作为新词出现,而“蝙蝠”可能因为单独出现次数过少,就没有被筛选出来。这个时候如果再给训练集加入等量的关于动物的文本,“蝙蝠”就很有可能作为新词出现了,这个时候“蝙蝠侠”的词频和聚合度会降低,但是依然超过其他的词,所以它也是一个新词。

信息熵的概念

以下摘自维基百科:

在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。

matrix67的文章对这个概念有一个直观的解释,这里直接抄过来:
20180928182345.png

依据Boltzmann's H-theorem,香农把随机变量X的熵值 Η(希腊字母Eta)定义如下,其值域为{x1, ..., xn}:

$$H(X)=E[(I(X)]=E[-\ln(P(X))]$$

其中,P为X的概率质量函数(probability mass function),E为期望函数,而I(X)是X的资讯量(又称为资讯本体)。I(X)本身是个随机变数。
当取自有限的样本时,熵的公式可以表示為:

对于一个词$w$ ,我们统计出它所有的左邻字集合$left={l_1,l_2,l_3……l_n}$,每个字在文本中出现的概率为$p(l_i)$,可以计算出$w$的左信息熵$leftEntropy=-p(l_1)\log p(l_1)-p(l_2)\log p(l_2)-p(l_3)\log p(l_3)-……-p(l_n)\log p(l_n)$,同理可求出右信息熵$rightEntropy$,取$leftEntropy$和$rightEntropy$的较小值作为最终信息熵。

测试效果

准备数据

测试数据用的是快看漫画APP社区的动态,因为数据量太大,第一次只取了前100w行。随便找了一段截图在下面?,可以看到有很多的表情符号(这个后面会过滤掉),而且有很多空行,从右边?的缩略图可以看出来。
20181023120725.png

第一次测试

第一次测试的时候,按照逐行导入数据的方式,可以看到每次导入1000行的时间越来越长。因为随着导入的数据越来越多,整个词典在变大,计算信息熵的时间变长。
20181023140030.png

并且,从下图可以发现,排在前面的词居然是一些表情。z这是因为我一开始只考虑了过滤一些符号:

[\\s\\d,.<>/?:;'\"\\[\\]{}()\\|~!@#$%^&*\\-_=+a-zA-Z,。《》、?:;“”‘’{}【】()…¥!—┄-]

虽然知道会有,但是没想到出现的频率这么高?(嗯,我忽略了这是一个二次元社区,而且活跃用户多是一些95后的青少年)。
20181023135944.png

第二次测试

然后我就加了一些过滤:

[\\ud83c\\udc00-\\ud83c\\udfff]|[\\ud83d\\udc00-\\ud83d\\udfff]|[\\u2600-\\u27ff]|[\\s\\d,.<>/?:;'\"\\[\\]{}()\\|~!@#$%^&*\\-_=+a-zA-Z\uFF0C\u3002\u300A\u300B\u3001\uFF1F\uFF1A\uFF1B\u201C\u201D\u2018\u2019\uFF5B\uFF5D\u3010\u3011\uFF08\uFF09\u2026\uFFE5\uFF01\u2014\u2504\uFF0D\u2022\u03C9\u0334\u0300\uD83E\uDD14\u203C\u0300\u03C9\u1D52\uFF5E\u200B\u3000\uD83E\uDD23\u0325\u2501\u2299\u25BD]

并且每次处理100万行数据(大概30M),第二次的测试结果如下
20181023155413
并且处理的时间也缩短了(100万行不到2分钟,第一个数字是数据的总长度,第二个是处理完成后词典中词的数量)
20181023164614

统计结果

统计了出现频率最高的前100个新词如下:

text frequency probability aggregation entropy
朝花 7619 0.0006684748 714.1395 2.1286788
作者大大 7124 0.0006250446 101.67802 1.9205971
咬痕 7033 0.00061706046 1358.7638 2.6024222
锐思 5265 0.0004619399 845.5993 2.9776123
啦啦 5060 0.0004439536 195.48767 1.0524662
伊凯 4940 0.00043342507 1481.129 2.8826144
马蓉 3983 0.00034945994 1295.1906 2.83174
要要要 3812 0.00033445677 124.237335 0.6033861
林早上 3311 0.0002905001 212.08957 2.5660532
呵呵呵 3000 0.00026321362 326.22397 0.76935846
啦啦啦 2939 0.0002578616 385.42508 0.9371891
嗯嗯 2735 0.00023996308 179.09486 0.6670491
点赞 2700 0.00023689224 114.3955 2.9828775
污污 2501 0.0002194324 353.56616 1.0437318
千玺 2446 0.00021460683 1941.3662 2.262512
芙蕾 2307 0.00020241126 3910.0344 2.5435712
呵呵呵呵 2226 0.0001953045 448.64456 0.50676024
蛤蛤 2197 0.0001927601 3223.8071 0.8353594
狗粮 2190 0.00019214593 823.8064 2.7364693
夏天岛 2133 0.00018714488 2851.0042 3.0487359
呜呜呜 2041 0.00017907299 1577.9368 1.0952901
考神 1907 0.00016731612 121.10168 1.2480384
搞事 1855 0.00016275374 297.2696 1.2835702
粗长 1808 0.00015863006 586.3388 0.8958081
蛤蛤蛤 1735 0.0001522252 3229.575 0.92817974
污污污 1708 0.00014985628 866.88025 0.7653267
什么鬼 1692 0.00014845247 117.45125 0.732285
小莘 1691 0.00014836474 223.57373 3.1967993
爆照 1641 0.00014397784 613.2958 1.4314348
福利图 1625 0.00014257403 521.51044 2.5649443
啪啪啪 1592 0.00013967868 1376.987 2.1149125
罗真 1575 0.00013818714 218.22343 3.151046
女主 1570 0.00013774846 103.3192 3.648004
斯里 1489 0.00013064168 150.4681 0.6009016
莲莲 1444 0.00012669349 1271.3285 2.7751904
傲娇 1383 0.00012134147 4379.4097 1.7764797
林路 1371 0.00012028862 408.81885 2.5821934
耽美 1365 0.00011976219 719.60846 3.4154472
蓝斯 1328 0.00011651589 470.82437 3.024543
啦啦啦啦 1323 0.0001160772 298.71097 0.83543575
蛤蛤蛤蛤 1310 0.00011493661 3087.7903 0.6837312
男主 1309 0.00011484887 107.30838 3.6012008
宋喆 1296 0.00011370828 5152.0664 2.5304878
谨斯里 1292 0.000113357324 446.49588 2.8248599
水默 1285 0.00011274316 321.61813 2.3186948
微博 1272 0.00011160257 2229.087 3.469414
写作业 1265 0.0001109884 197.61131 2.3127012
宝强 1259 0.00011046198 144.6547 2.1391745
南烟 1247 0.00010940912 1579.9 1.5795708
呜呜呜呜 1226 0.00010756663 1422.6741 0.7233886
壁咚 1205 0.00010572413 2936.751 2.3357627
懵逼 1196 0.000104934494 1526.3354 1.7031717
易烊千玺 1193 0.00010467128 3649.2983 1.7502799
搞事情 1177 0.00010326747 469.7489 1.7669501
萌萌 1171 0.00010274105 369.75153 1.4982914
应怜 1142 0.000100196645 679.891 1.6739386
考神保佑 1118 0.00009809094 715.99963 0.6439655
单身狗 1084 0.00009510785 654.71515 2.735538
朝花惜时 1080 0.0000947569 330.80243 1.5743202
签售 1065 0.00009344083 3327.9177 3.2389452
高冉 1059 0.0000929144 749.31055 2.2584584
洛逸 1050 0.00009212476 6001.979 3.3941467
老司机 1049 0.00009203702 523.67773 2.1651042
微信 1035 0.000090808695 433.49994 2.66124
炫童 1009 0.00008852751 2634.7979 1.0329934
高仿 1006 0.0000882643 542.7846 2.615807
加油加油 989 0.00008677275 160.90083 0.99770564
镜玄 989 0.00008677275 3026.1096 2.3082404
小黄文 982 0.00008615859 221.07547 3.2080538
咳咳 974 0.00008545668 2539.0066 0.7538306
江哥 974 0.00008545668 345.30493 2.479942
学生党 953 0.00008361419 521.8259 2.3849728
同款 947 0.00008308776 494.06375 3.1331296
嗷嗷嗷 916 0.000080367885 3242.169 1.2108015
晴蓝 916 0.000080367885 977.891 1.5679594
暖男 910 0.00007984146 113.61686 0.8645378
哇哇哇 909 0.00007975372 778.0811 0.9925133
腐女 906 0.000079490506 274.7588 2.7038126
龙之谷 902 0.00007913956 3523.0396 0.8865134
开车开车 899 0.00007887634 498.59827 0.67953616
闺蜜 899 0.00007887634 5840.8545 2.743314
玛丽苏 897 0.00007870087 3875.2224 3.3459933
南烟斋 882 0.0000773848 2185.6746 2.1416628
清英 872 0.00007650742 636.903 1.8763657
老宫 867 0.00007606873 365.8185 2.6832836
番外 865 0.00007589326 1540.1 2.852577
保佑保佑 862 0.00007563004 119.55964 0.84645087
狂魔 861 0.0000755423 1887.3806 0.71571773
没毛病 859 0.00007536683 198.23003 0.80526865
嘿嘿嘿嘿 854 0.00007492814 477.05734 0.5259418
小仙女 845 0.0000741385 153.73395 1.9263396
鹿晗 839 0.00007361207 5705.6484 3.0926082
停更 821 0.00007203279 155.03201 2.7178392
必过 818 0.00007176958 106.21267 0.7666756
秀恩爱 809 0.000070979935 445.0215 2.2470446
注意身体 802 0.00007036577 1461.1837 1.6486573
部漫画 794 0.00006966387 175.18091 1.2902995
威风堂堂 790 0.00006931292 5207.882 1.9537654
小贝 790 0.00006931292 116.32115 2.419325
柯小 785 0.00006887423 150.55968 2.2457926

可以看到排名靠前的是一些快看漫画特有的词汇:朝花、咬痕、锐思等;还有一些关于学生的:写作业、考神、学生党等;关于恋爱的:壁咚、单身狗、啪啪啪等;另外,这份数据是按照时间排序的,所以这前100万行数据应该是快看刚开发出社区功能时候的,所以也体现了当时的热点,例如宝强、马蓉、宋喆都出现在了词表里面。

第三次测试

根据上面统计出的结果,我们发现一些没什么意义的语气词(啦啦啦,嗯嗯等)和叠词短语(加油加油,保佑保佑)也出现在词表中,而且有的排名还很靠前.其实这些词都是没有什么固定搭配,但是出现的频率挺高的,可能都是被当做一些口头禅来使用了.但是筛选的时候默认是按照词频来排序的.
然而它们的左右邻字信息熵都比较低,所以我把这100条按照entropy这个字段来排序,发现排在前面的都是一些比较"好"的词.可以修改一下策略,提高entropy这个字段的阈值,或者直接根据它来排序后输出.
下面分别是提高阈值和更改排序字段后的结果:

1.将entropy的最小值设为1.0

text frequency probability aggregation entropy
朝花 7619 0.0006684748 714.1395 2.1286788
咬痕 7033 0.00061706046 1358.7638 2.6024222
锐思 5265 0.0004619399 845.5993 2.9776123
伊凯 4940 0.00043342507 1481.129 2.8826144
马蓉 3983 0.00034945994 1295.1906 2.83174
污污 2501 0.0002194324 353.56616 1.0437318
千玺 2446 0.00021460683 1941.3662 2.262512
芙蕾 2307 0.00020241126 3910.0344 2.5435712
狗粮 2190 0.00019214593 823.8064 2.7401226
夏天岛 2133 0.00018714488 2851.0042 3.0487359
呜呜呜 2041 0.00017907299 1577.9368 1.0952901
爆照 1641 0.00014397784 613.2958 1.4314348
福利图 1625 0.00014257403 521.51044 2.5649443
啪啪啪 1592 0.00013967868 1376.987 2.1149125
莲莲 1444 0.00012669349 1271.3285 2.7751904
傲娇 1383 0.00012134147 4379.4097 1.7764797
林路 1371 0.00012028862 408.81885 2.5821934
耽美 1365 0.00011976219 719.60846 3.4154472
蓝斯 1328 0.00011651589 470.82437 3.024543
宋喆 1296 0.00011370828 5152.0664 2.5304878
谨斯里 1292 0.000113357324 446.49588 2.8306234
水默 1285 0.00011274316 321.61813 2.3186948
微博 1272 0.00011160257 2229.087 3.469414
南烟 1247 0.00010940912 1579.9 1.5795708
壁咚 1205 0.00010572413 2936.751 2.3357627
懵逼 1196 0.000104934494 1526.3354 1.7031717
易烊千玺 1193 0.00010467128 3649.2983 1.7502799
搞事情 1177 0.00010326747 469.7489 1.7669501
萌萌 1171 0.00010274105 369.75153 1.4982914
应怜 1142 0.000100196645 679.891 1.6739386
单身狗 1084 0.00009510785 654.71515 2.735538
朝花惜时 1080 0.0000947569 330.80243 1.5743202
签售 1065 0.00009344083 3327.9177 3.2389452
高冉 1059 0.0000929144 749.31055 2.2584584
洛逸 1050 0.00009212476 6001.979 3.3941467
老司机 1049 0.00009203702 523.67773 2.1651042
微信 1035 0.000090808695 433.49994 2.66124
炫童 1009 0.00008852751 2634.7979 1.0329934
高仿 1006 0.0000882643 542.7846 2.615807
镜玄 989 0.00008677275 3026.1096 2.3082404
江哥 974 0.00008545668 345.30493 2.479942
学生党 953 0.00008361419 521.8259 2.3849728
同款 947 0.00008308776 494.06375 3.1331296
嗷嗷嗷 916 0.000080367885 3242.169 1.2108015
晴蓝 916 0.000080367885 977.891 1.5679594
闺蜜 899 0.00007887634 5840.8545 2.743314
玛丽苏 897 0.00007870087 3875.2224 3.3459933
南烟斋 882 0.0000773848 2185.6746 2.1416628
清英 872 0.00007650742 636.903 1.8763657
老宫 867 0.00007606873 365.8185 2.6832836
番外 865 0.00007589326 1540.1 2.852577
鹿晗 839 0.00007361207 5705.6484 3.0926082
秀恩爱 809 0.000070979935 445.0215 2.2470446
注意身体 802 0.00007036577 1461.1837 1.6486573
威风堂堂 790 0.00006931292 5207.882 1.9537654
傻逼 779 0.0000683478 503.8682 2.92917
炒鸡 775 0.00006799685 1740.99 2.6187243
江应怜 774 0.00006790911 2937.19 3.1312523
表情包 760 0.00006668078 834.18677 2.6742978
董乐 751 0.00006589114 1694.9777 1.834631
淇儿 741 0.00006501376 1107.47 2.7357907
网红 725 0.00006360996 383.83417 2.673612
艾辰 724 0.00006352222 4679.0825 2.3421447
阿良 712 0.000062469364 582.4503 2.335938
王宝强 709 0.00006220615 1305.3687 3.3467567
麻麻 674 0.000059135324 1263.2423 3.1371875
杨洋 664 0.000058257945 3129.148 2.676895
叶陵 661 0.00005799473 5301.6133 2.2701695
蓝翅 636 0.000055801283 1351.7319 2.4104183
颜值 625 0.000054836168 2091.0918 3.5542188
摩羯 615 0.00005395879 10546.176 2.0407236
喵喵 597 0.00005237951 1321.6555 1.3843987
男票 596 0.00005229177 321.81198 2.861099
孩纸 583 0.00005115118 307.64026 2.1485841
萌萌哒 551 0.000048343565 1209.7896 1.3233126
杨深 546 0.000047904876 864.4192 3.1076918
良叔 546 0.000047904876 893.4971 1.5604147
兔先生 526 0.00004615012 474.43732 2.2437394
挂科 526 0.00004615012 715.76135 1.274379
脑残 521 0.00004571143 1101.3003 2.3731766
脑洞 520 0.000045623692 1432.9651 2.697944
宣哲 514 0.000045097266 6498.177 2.250713
酱酱 512 0.000044921788 1528.3884 1.6038784
阿修 503 0.00004413215 616.2741 2.4794445
咕啾 486 0.000042640604 11397.398 3.1129205
冯思婷 479 0.00004202644 18829.566 3.095593
惊悚 478 0.000041938703 4864.7705 1.5313193
条动态 456 0.00004000847 399.85513 1.8436525
姨妈巾 454 0.000039832994 2905.3113 2.8004825
廖兮 454 0.000039832994 8386.256 2.3456502
嘤嘤嘤 449 0.000039394305 4181.5786 1.2522628
二硕 433 0.000037990496 588.5848 1.8477677
剧透 417 0.00003658669 994.41235 2.6705313
琪儿 415 0.000036411217 911.04236 2.4461467
举爪 387 0.000033954555 815.0801 1.0833675
属于中国 381 0.00003342813 1119.742 1.298511
夏蒂 380 0.00003334039 2393.8135 2.7324243
茨木 375 0.000032901702 5006.0386 2.7616844
王俊凯 373 0.000032726224 1712.8926 2.2571971
寄刀片 362 0.00003176111 1749.3829 1.9641904

2.按entropy从大到小排序取前100个(probability>=0.00001)

text frequency probability aggregation entropy
颜值 625 0.000054836168 2091.0918 3.5542188
微博 1272 0.00011160257 2229.087 3.469414
吐槽 335 0.000029392186 1796.5593 3.4630563
耽美 1365 0.00011976219 719.60846 3.4154472
洛逸 1050 0.00009212476 6001.979 3.3941467
王宝强 709 0.00006220615 1305.3687 3.3467567
玛丽苏 897 0.00007870087 3875.2224 3.3459933
戈薇 250 0.000021934467 16642.215 3.2495627
茶蛋 152 0.000013336156 641.07733 3.2491825
签售 1065 0.00009344083 3327.9177 3.2389452
脑补 244 0.000021408041 344.0221 3.2287629
麻麻 674 0.000059135324 1263.2423 3.1371875
同款 947 0.00008308776 494.06375 3.1331296
江应怜 774 0.00006790911 2937.19 3.1312523
杨深 546 0.000047904876 864.4192 3.1076918
咕啾 486 0.000042640604 11397.398 3.1006157
冯思婷 479 0.00004202644 18829.566 3.095593
鹿晗 839 0.00007361207 5705.6484 3.0926082
夏天岛 2133 0.00018714488 2851.0042 3.0487359
蓝斯 1328 0.00011651589 470.82437 3.024543
闹闹 213 0.000018688166 1013.09607 2.9969301
锐思 5265 0.0004619399 845.5993 2.9776123
语文老师 214 0.000018775903 385.0536 2.9565506
关晓彤 204 0.000017898525 1144.9987 2.938278
傻逼 779 0.0000683478 503.8682 2.92917
霸道总裁 343 0.00003009409 5585.153 2.9150019
哑舍 253 0.00002219768 8214.513 2.9121056
艾爹 132 0.000011581399 1129.477 2.90676
伊凯 4940 0.00043342507 1481.129 2.8826144
撕逼 322 0.000028251594 582.5167 2.8622305
男票 596 0.00005229177 321.81198 2.861099
番外 865 0.00007589326 1540.1 2.852577
抱枕 195 0.000017108885 1144.7516 2.849493
马蓉 3983 0.00034945994 1295.1906 2.83174
谨斯里 1292 0.000113357324 446.49588 2.8248599
姨妈巾 454 0.000039832994 2905.3113 2.8004825
川彤 267 0.000023426011 3209.335 2.789411
兔兔 181 0.000015880554 497.66367 2.7813048
思宇 273 0.000023952438 409.82895 2.7800584
撩妹 146 0.000012809729 569.5236 2.7790928
莲莲 1444 0.00012669349 1271.3285 2.7751904
姚非拉 181 0.000015880554 2082.7703 2.7711809
逗比 275 0.000024127914 321.02866 2.763499
茨木 375 0.000032901702 5006.0386 2.7616844
闺蜜 899 0.00007887634 5840.8545 2.743314
真爱粉 165 0.000014476748 422.13095 2.7400355
狗粮 2190 0.00019214593 823.8064 2.7364693
淇儿 741 0.00006501376 1107.47 2.7357907
单身狗 1084 0.00009510785 654.71515 2.735538
夏蒂 380 0.00003334039 2393.8135 2.7324243
金丘 270 0.000023689225 3116.9807 2.7218895
脑残粉 189 0.000016582457 737.5371 2.7108097
哆哆 319 0.00002798838 7592.615 2.7099466
张若昀 216 0.00001895138 595.09076 2.7083547
板绘 146 0.000012809729 830.856 2.700903
脑洞 520 0.000045623692 1432.9651 2.697944
老宫 867 0.00007606873 365.8185 2.6832836
王者荣耀 223 0.000019565545 2297.3916 2.6817567
杨洋 664 0.000058257945 3129.148 2.676895
表情包 760 0.00006668078 834.18677 2.6742978
网红 725 0.00006360996 383.83417 2.673612
剧透 417 0.00003658669 994.41235 2.6705313
拖稿 258 0.00002263637 560.069 2.668303
杜小莘 119 0.000010440806 1354.8605 2.6673255
微信 1035 0.000090808695 433.49994 2.66124
马荣 307 0.000026935526 556.4856 2.6507087
腹黑 344 0.000030181827 1199.4729 2.623004
炒鸡 775 0.00006799685 1740.99 2.6187243
高仿 1006 0.0000882643 542.7846 2.615807
薛之谦 290 0.000025443982 13751.113 2.6034563
咬痕 7033 0.00061706046 1358.7638 2.6024222
雾霾 128 0.000011230447 8250.666 2.5962553
林路 1371 0.00012028862 408.81885 2.5821934
凯爸锐妈 132 0.000011581399 581.91534 2.5741382
福利图 1625 0.00014257403 521.51044 2.5649443
瑾斯里 128 0.000011230447 390.25647 2.5566056
宋仲基 174 0.000015266389 3581.4153 2.5511425
芙蕾 2307 0.00020241126 3910.0344 2.5435712
伯贤 114 0.000010002117 9617.505 2.5391426
宋喆 1296 0.00011370828 5152.0664 2.5304878
萝莉 115 0.000010089855 8957.9795 2.5202932
杨美味 121 0.000010616282 606.7459 2.493181
吴亦凡 234 0.00002053066 13268.437 2.493003
浸屎里 130 0.000011405923 452.97632 2.4838595
养小鬼 262 0.000022987322 2158.3438 2.4814637
江哥 974 0.00008545668 345.30493 2.479942
阿修 503 0.00004413215 616.2741 2.4794445
抢热门 335 0.000029392186 308.25677 2.4698045
世勋 115 0.000010089855 1542.1354 2.458998
盆友 283 0.000024829817 424.23758 2.4581518
迷妹 306 0.000026847789 391.9121 2.4477751
琪儿 415 0.000036411217 911.04236 2.4461467
朱里安 195 0.000017108885 1480.7308 2.4291697
柯基 137 0.000012020088 418.45804 2.4283874
督尼 320 0.000028076118 7561.717 2.4274776
血族 336 0.000029479925 897.6834 2.4200006
美瞳 185 0.000016231506 305.56412 2.4142103
蓝翅 636 0.000055801283 1351.7319 2.4104183
瑞思 132 0.000011581399 445.85788 2.392941
学生党 953 0.00008361419 521.8259 2.3849728

huangys
1 声望1 粉丝

下一篇 »
机器学习概述

引用和评论

0 条评论