据外媒上周报道,谷歌已于近日在一次更新中将名为「BERT(Bidirectional Encoder Representations from Transformers)」的机器学习算法加入到了搜索引擎中,以便更好地理解用户在搜索栏中输入的关键词或问题,更准确地分析每一句话中不同关键词之间的关系,提升搜索体验。

BERT 实际上是来自谷歌的基于机器学习的自然语言处理开源框架,谷歌希望通过 BERT 来实现对同一个查询请求中打乱顺序的关键词之间关系的判别,以改变过去只能按照关键词输入顺序来判断搜索意图的状况。

谷歌.jpg

随着 BERT 的引入,各网站的自然排名以及谷歌精选摘要的显示结果也会发生改变。其中,电商网站很可能将因此受益最大,它们可以借助具有高购买导向性的外部链接,带来更多的自然搜索流量。

此外,BERT 还加强了对句子中介词的理解能力,这是因为一句话中有无介词或介词用法的不同都可能会完全改变句子想表达的意思。

据了解,在这次搜索引擎的更新中,谷歌并未用 BERT 将 RankBrain 替换掉,而是将这两者同时启用以提供更为准确的搜索结果。RankBrain 是谷歌于 2015 年推出的机器学习系统,可自主学习、理解用户输入的新关键词,为用户在搜索时提供更多相关联的结果。

据外媒报道,谷歌将 11038 本未经标注的书籍以及来自维基百科内容的 25 亿文字,用于为 BERT 训练模型。谷歌还随机去掉了文本里原有的一些单词,让 BERT 自己判断缺少的单词是什么。

BERT 通过学习这些文本,就可以逐渐掌握语句与关键词之间的规律,理解不同关键词之间的关系,甚至能分析出这些关键词背后相关实体之间的联系。

据谷歌介绍,BERT 已经于上个月底完成了在美国的部署,未来还将应用到更多不同语言的版本上。目前大概会有 10% 从美国地区发起的英文自然搜索会被 BERT 干预,而剩余的 90% 搜索流量以及与新闻、图片、支付相关的搜索,还有其他国家及地区的搜索均不会受此影响。

谷歌希望借助 BERT,在进行比如长尾的、与电商相关的那些更为复杂的查询时,其自然搜索及精选摘要的显示结果能有更出色的表现。


羽飞
444 声望10 粉丝

行成于思,否往泰来