这是一个系列文章,从各个角度来评估一个问题:“我的业务要不要用 AI ?能不能用 AI?”本期评估角度——数据。
底层逻辑:数据驱动
基于规则的旧时代
在人工智能普及之前,大家用的产品都是「基于规则」的。
我们通过总结规则,然后让计算机自动的执行这些规则,我们日常工作和生活中很多问题都是基于规则来处理的,比如:
- Excel 中的各种公式的规则就是:将选中的区域进行计算
- 邮件的规则就是:将内容发给收件人
- 公众号的规则就是:将关注的公众号内容推送给你
基于规则的好处就是:所以人都能知道在什么情况下得到什么结果,一切都是可以预判的。
但是基于规则的方法也有很大的弊端:很多问题,很难(甚至无法)总结出有效的规则。
基于数据的 AI 时代
人工智能发展到现在(2019年),最核心的底层逻辑是:「基于数据」。
规则能很好解决的问题当然是用规则来解决,因为他的成本低,可解释性强。但是很多问题没有有效个规则,这个时候人工智能的价值就凸显了。
「基于数据」的方法简单说就是:从海量数据中找规律,这些规律是很抽象的,并不能总结成具象的规则。比如:
- 给机器看海量的猫和狗的照片,它就具备了「区分猫和狗」的能力
- 给机器海量的中英文对照文章,它就具备了「中英文翻译」的能力
- 给机器海量的文章,它甚至可以具备「写文章」的能力
基于数据的好处是:只要有足够多的优质数据,那么机器就能学会某些技能,数据越多,能力越强。
但是基于数据的方法也有明显的弊端:机器只能告诉你「是什么」,但是无法告诉你「为什么」。
扩展阅读:
《「2019更新」什么是人工智能?(AI的本质+发展史+局限性)》
《人工智能》有详细介绍这段历史
想要用 AI,需要知道数据金字塔
上文已经说明了「基于数据」的逻辑,那么支撑这个逻辑的就是「数据」。
没有数据,就无从基于数据。所以想要用人工智能,需要考虑业务场景的数据3要素:
- 数据可获取
- 数据全面
- 数据多
他们3个类似金字塔的结构,先有「数据可获取」再谈「数据全面」,有了「数据全面」再谈「数据多」。
数据可获取
想要解决问题,就需要具备「跟这个问题相关的数据」。比如上面提到的例子:
给机器看海量的猫和狗的照片,它就具备了「区分猫和狗」的能力。
这里需要的数据不光是照片本身,还需要将照片里的猫和狗标注出来,如下图:
所以,你要考虑的问题是:
- 我遇到的问题有哪些影响因素?
- 这些影响因素是数字化的吗?如果不是,能否数字化?
- 这些数据是否可以获取?成本高吗?值得吗?
数据全面
假如我们只能看到 10% 的照片,现在让你区分照片中是猫还是狗,这会非常难。如下图:
当我们能看到照片的 50% 时,还能猜一下。
当我们可以看到100%的照片时,就信心十足了。
人是如此,机器也是如此,你都不让我看全,我怎么分析啊!
所以,当我们想要利用人工智能技术来解决实际问题时,你需要仔细分析这个问题:
- 到底有哪些影响因素?是否有对应的数据?
- 有数据的因素是否足够全面?
- 关键因素的数据有遗漏吗?
数据多
还是区分猫和狗的例子。猫大概有40多个品种,狗大概有接近200个品种。并且照片可以从不同的角度,不同的背景,不同的光线下拍摄,会产生无数种组合。
想要有效的区分猫和狗,需要大量的不同的照片才行。kaggle(很权威的 AI 竞赛网站)上有很多区分猫和狗的训练数据,大部分都是上万的量级(1w+的猫和1w+的狗)。
到底多少算够用呢?
区分猫和狗这种非常简单的任务都需要上万的数据,对于更复杂的任务,就需要上百万甚至上亿的数据。具体要多少跟你要解决的问题复杂度,模型选择,预期结果都有关系。
不过有一条原则是不会变:数据越多,效果越好!
案例分析
假如你是游戏公司的老板,想利用人工智能技术提升游戏的收入,从数据角度评估一下是否可行?
电商平台通过推荐算法可以让购物者花更多钱,那么在游戏里结合推荐算法,理论上也可以让玩家花更多的钱。
推荐算法的本质是:挖掘用户需求,将匹配需求的商品推荐给用户。
应用到游戏里则是:挖掘用户的需求和他的消费能力,将匹配需求的道具,以合适的价格推荐给用户。
第一步:数据是否可获取?
游戏算是数字化程度很高的领域了,但即便如此,还是有部分因素并没有数据化。比如:
- 一些游戏玩家都会在微信群里聊天和互动,这部分数据游戏是没有的
- 老婆发现老公在游戏里泡妞,被迫卸载了游戏。这种游戏外发生的事情有时候也会影响到游戏内。
- 玩家的心理活动也是没有数据的(这次活动打折好厉害,但是我要忍住!不然又要吃一星期泡面了~)
够不够用呢?下一步全面性的时候再分析。
「数据可获取」看似是一个很白痴的问题,但是很多行业的数字化程度非常低,这个问题对于他们来说并不简单。
第二步:数据全面性是否够用?
想要判断玩家的需求和消费能力,大致有下面一些影响因素:
-
用户属性
- 玩家属性(年龄、性别、地理位置...)
- 角色属性(等级、装备情况、剩余钻石数量...)
-
行为数据
- 游戏行为(买过什么东西、参与过什么玩法、打过什么副本...)
- 消费行为(活动页面停留时长、买过什么东西、花过多少钱...)
- 玩家互动(跟谁组过队、跟谁打过架、跟谁参加过活动...)
- 聊天数据(跟谁、说过什么话、游戏内+游戏外)
- 心理活动(想要什么、喜欢什么、觉得多收钱值...)
-
商品属性
- 商品价格
- 商品作用
- 商品特点
- 购买条件
还是参考电商的经验,亚马逊、阿里巴巴都已经验证过:
在缺失「聊天数据」「心理活动数据」「电商平台外数据」的情况下,依然能有效的挖掘出用户需求,刺激消费。
而游戏不但有推荐的权利,还有定价权,可以通过降价进一步的刺激消费。所以全面性角度是 OK 的。
PS:所以在全面性的评估上,不需要理论上 100% 全面,而是达到可用的程度即可,这个事前只能找案例参考。
第三步:数据够不够多?
推荐系统是一种特殊性的情况,他对数据量的要求很有弹性,在数据量少的事情有很多手段来解决冷启动的问题。随着数据量的增多,算法的作用逐步加大。
一个新用户下载了淘宝,依然不妨碍推荐,只不过用的越多推荐的越靠谱一些而已。
PS:在评估数据是否足够时,尽量找经验丰富的技术咨询一下。
所以,经过3个数据角度的评估,「通过推荐算法提升游戏收入」的设想应该是可行的。
总结
评估能不能用人工智能技术时,「数据」可以说是最重要的一个维度。
具体评估时,想清楚下面3个问题:
- 数据可获取吗?
- 数据全面吗?
- 数据多吗?
3个问题需要同时满足,才算是「貌似可行」。
在评估「要不要用」和「能不能用」人工智能时,需要考虑很多问题。这个系列还会持续更新,关注我的公众号查看所有内容:
公众号:打不死的小强(xiaoqiang-me)
扩展阅读:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。