创宇前端 - SegmentFault 思否

异端审判器！一个泛用型文本聚类模型的实现（2）

创宇前端

2019-01-15

阅读 5 分钟

3.1k

前文中我们已经定义好了一些必要概念，并写出了函数实现。我们的程序递进地量化了字符之间的差异、字符串之间的差异，最终得到了字符串集合之间的差异。有了这项指标，我们就能完成分拣工作。

人工智障也刷题！Kaggle 入门之实战泰坦尼克号

创宇前端

2018-12-05

阅读 6 分钟

3.7k

Kaggle 是一个用来学习、分享和竞赛的线上数据实验平台，有点类似 KDD—CUP（国际知识发现和数据挖掘竞赛），企业或者研究者可以将背景、数据、期望指标等发布在 kaggle 上，用竞赛的方式向全世界的数据科学家和爱好者寻求解决方案。热爱数（dong）据（shou）挖（zhe）掘（teng）的小伙伴们可以下载/分析数据，使用统计/...

用“活着的”CNN进行验证码识别

创宇前端

2018-11-01

阅读 5 分钟

验证码( CAPTCHA )是一种区分用户是计算机或人的公共全自动程序。在 CAPTCHA 测试中，作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题，所以回答出问题的用户就可以被认为是人类。

异端审判器！一个泛用型文本聚类模型的实现（1）

创宇前端

2018-09-29

阅读 4 分钟

4.8k

如果给你一大堆用户输入，里面有大量的中文地名，像是“北京”、“成都”、“东莞”，不幸的是，其中也混有一些罗马地名，比如 “Singapore”、“New York”、“Tokyo”。你的任务是将它们分开，你会如何去做？