白话大模型系列共六篇文章,将通俗易懂的解读大模型相关的专业术语。本文为第一篇:AI分析能做什么?在实际落地中会碰到什么问题?作者:星环科技 人工智能产品部我们使用一个简单的应用实例来解析人工智能分析都在做什么。以单一AI应用为例人脸检索
图片
我们以人脸检索为例,来看看利用“人工智能”能力的流程。注意到,实际上有几个视角。•问题是什么:假设已经有很多不同人的正面照(比如证件照)以及对应的 ID,现在拍摄到了一张某人的新照片,我们需要判断这张照片中是的人是谁?•步骤是什么: 基本流程大部分人脑中都有基本印象了,是一套固定的模式
图片
图 1 基础流程比如人脸的例子“采集数据”就替换成“采集人脸数据”完整的流程
图片

图片
图 2 分析典型的人脸识别要做什么一般而言,完整的数据分析流程的步骤是相对冗长的,上面的内容展示了一个典型的“人脸识别”的 AI 应用形态在“需求分析”角度看,在做什么。使用一个在数字化、智能化之前就存在的例子来说,这就类似在图书馆查书名、作者,可以方便的找到想要的编号(ID)和其所在的书架并借阅这本书。实际工作比较复杂复杂很多,我们下面会稍微详细的叙述。首先从“数量化”开始。数量化
图片
首先,我们需要将人脸照片转化为计算机能够理解的数据。这个过程叫做“量化”。比如早期的图书馆检索,是通过人工编制索引卡片,然后通过卡片找到书籍的位置。这个过程就是“量化”。我们将书籍的信息转化为了卡片的信息。
图片
图 3 我国澳门公共图书馆的卡片目录(柜)可以看到,为了检索为目的,图书卡片目录至少要1.保存书籍的信息(书名、作者、出版社、出版日期等)2.保存书籍的位置(柜号、层号、架号、排号等)3.保存书籍的编号(索书号、ISBN 等)对应到人脸识别,我们需要保存的信息也是类似的。我们需要保存的“人脸卡片目录”信息包括(姑且认为):1.人脸的特征(比如眼睛、鼻子、嘴巴等):可以是相对大小、颜色等2.人脸的位置:可以是相对位置、绝对位置等3.人脸的编号:可以是身份证号、学号等实际操作中,人脸卡片目录一般都“编码”成了一串固定长度,比如说 1024,的数字(也就是“向量”),其有个特定且形象的名字“嵌入向量”:将人脸的特征(比如瞳距、鼻宽等)、位置(眼相对鼻距离等)、编号等信息,”嵌入“到这 1024 维的“向量”中。
图片
但是,我们需要注意到,这些信息都是“人工”提取的。这个过程是非常耗时的。而且,这些信息的提取是非常“主观”的。不同的人可能会提取出不同的信息。而且,更重要的是,这样提取,很难保证“准确性”和“泛化性”。不考虑严格的学术定义,这两个带引号的词的含义是:准确性
图片
按照提取的信息,能够准确的找到对应的书籍/人脸的概率。这里,由于信息不准确等问题,通常可能检索出多个待选结果,这里的准确性一般是指排名前几的结果中,是否包含正确结果的概率。这比较好理解,一位作家可能写了多本书,书名、年代可能相似,查询者记忆比较模糊,问的不准确,都可能只能找到一个“范围”。这个范围内,可能有多本书,但是只有一本是正确的。这个时候,我们就需要“挑选”了。到了“人脸检测”,这个问题可能更严重些。根据口、耳、鼻形态的的手工构建的数量化特征,排列组合可能性来找到“相似”的人脸。这样操作下来,排序后找到最相似前五名,使用十五年前最厉害的算法,真正想找的人在其中的概率连一半都不到。事实上,尽管“人脸识别”这个需求自有视频监控和照相技术后就一直是刚需,但这么低的准确率一直持续到 2010 年前后。新的”方法“的出现,才使得准确率有了质的提升。泛化性
图片
泛化是个阻碍人工智能在应用中大规模铺开的问题。泛化性是指,对同一个问题,对于“新的数据”,人工智能模型还能保证原有的性能(比如查找精度等)。但事实上,问题很多,比如:1.检索书籍中,原本书籍题目限制在 20 字以内,但是现在有了超过 20 字的书籍,比如白居易《望月有感》的诗,题目是《自河南经乱,关内阻饥,兄弟离散,各在一处。因望月有感,聊书所怀,寄上浮梁大兄,于潜七兄,乌江十五兄,兼示符离及下邽弟妹》,共 50 个字,这个时候,原有的卡片目录抄录不下。2.检索人脸中,原本的人脸照片都是正面照,但是现在有了侧面照,这个时候,原有的卡片目录就无法使用了。或者,在最近两年中,原本好用的手机人脸识别解锁,在人带了口罩后(甚至遮挡并不算多),就无法使用了。以上的例子比比皆是,这些问题都是“泛化性”问题。同一个问题, 新的数据,这些日常使用的单词,并没有数量化的定义,甚至不同人、不同领域的认知都完全不同,也客观上导致了现实中 AI 落地的诸多问题。


星环科技
4 声望5 粉丝