异端审判器!一个泛用型文本聚类模型的实现(2)

2019-01-15
阅读 5 分钟
3.1k
前文中我们已经定义好了一些必要概念,并写出了函数实现。我们的程序递进地量化了字符之间的差异、字符串之间的差异,最终得到了字符串集合之间的差异。有了这项指标,我们就能完成分拣工作。

人工智障也刷题!Kaggle 入门之实战泰坦尼克号

2018-12-05
阅读 6 分钟
3.7k
Kaggle 是一个用来学习、分享和竞赛的线上数据实验平台,有点类似 KDD—CUP(国际知识发现和数据挖掘竞赛),企业或者研究者可以将背景、数据、期望指标等发布在 kaggle 上,用竞赛的方式向全世界的数据科学家和爱好者寻求解决方案。热爱数(dong)据(shou)挖(zhe)掘(teng)的小伙伴们可以下载/分析数据,使用统计/...

用“活着的”CNN进行验证码识别

2018-11-01
阅读 5 分钟
4k
验证码( CAPTCHA )是一种区分用户是计算机或人的公共全自动程序。在 CAPTCHA 测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题,所以回答出问题的用户就可以被认为是人类。

异端审判器!一个泛用型文本聚类模型的实现(1)

2018-09-29
阅读 4 分钟
4.8k
如果给你一大堆用户输入,里面有大量的中文地名,像是“北京”、“成都”、“东莞”,不幸的是,其中也混有一些罗马地名,比如 “Singapore”、“New York”、“Tokyo”。你的任务是将它们分开,你会如何去做?