上个月用 go 语言写的,超低性能的服务器,爬了一个晚上,两百多万条评论。当时简单的分析了一下,后来就去忙考试了。最近又搞了搞,不过发现目前淘宝 ip 禁的比较严,已经不能用了,本来想发代码的,现在就不发了。目前正在尝试用代理 ip 解决。
下面是简单统计的数据。感觉挺好玩儿的,比如说在我统计的几种颜色中,购买黑色胸罩的比例竟然占百分之 40 ,还有 B 罩杯占百分之 44 ,购买最多的型号是 75B 。
让女友做了一个简单的展示页面:http://nladuo.github.io/bra/
不过感觉最好玩的还是评论了,有很多很多巨好玩儿的评论。数据库(mysql)文件上传百度云了。我也不会分析数据,用了分词的库统计了一下发现出现多的词中,最多也就提到“聚拢”什么的,没什么更劲爆的东西了。
现在把数据贡献出来,希望谁能搞出点有意思的东西出来。
链接: http://pan.baidu.com/s/1dDKmUyP 密码: 26av
自己统计的结果:
{
"basic": {
"A": 522759,
"B": 788989,
"C": 330960,
"D": 105859,
"E": 29815,
"F": 8892,
"G": 1941,
"H": 197,
"whole": 1789437
},
"color": {
"whole": 1127046,
"橙色": 6216,
"白色": 86558,
"粉色": 102015,
"紫色": 87117,
"红色": 192999,
"绿色": 40261,
"蓝色": 142403,
"黄色": 17923,
"黑色": 451554
},
"detail": {
"50D": 8,
"50E": 21,
"50F": 13,
"55C": 38,
"58D": 2,
"60B": 2,
"60C": 1,
"63J": 1,
"65A": 313,
"65B": 519,
"65C": 10,
"65D": 1,
"65E": 3,
"65F": 3,
"70A": 131106,
"70B": 100451,
"70C": 21934,
"70D": 5357,
"70E": 1769,
"70F": 227,
"70G": 84,
"74A": 6,
"75A": 210992,
"75B": 309069,
"75C": 85157,
"75D": 20146,
"75E": 5690,
"75F": 1791,
"75G": 292,
"75H": 30,
"75I": 4,
"80A": 129422,
"80B": 230519,
"80C": 96942,
"80D": 27112,
"80E": 6699,
"80F": 1899,
"80G": 407,
"80H": 40,
"80I": 3,
"80J": 1,
"82B": 3,
"85A": 45166,
"85B": 124980,
"85C": 85214,
"85D": 27887,
"85E": 7456,
"85F": 2128,
"85G": 355,
"85H": 43,
"85I": 5,
"85J": 2,
"90A": 5157,
"90B": 18612,
"90C": 31325,
"90D": 16094,
"90E": 4965,
"90F": 1556,
"90G": 323,
"90H": 41,
"90I": 4,
"90J": 4,
"95A": 597,
"95B": 4834,
"95C": 10339,
"95D": 9252,
"95E": 3212,
"95F": 1275,
"95G": 480,
"95H": 43,
"95I": 1,
"whole": 1789437
}
}
------2017年5月更新-------
代码整理到了: https://github.com/nladuo/tao...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。