搜索引擎是怎么样的存在?(四 信息服务模块)
用户输入检索词后,接口获取数据,自动调用分词模型,将一个查询语句分解成多个词的集合,再与搜索引擎本身建立的规范化词表相匹配,利用之前的倒排索引寻找文档,但系统怎么就知道用户输入的查询语句与系统内部的某篇文档相匹配呢,事实就是,在两方的匹配过程之中,会用到一些算法和模型,比如向量空间模型,计算两者...
2017-05-26
没两把刷子,别碰向量数据库
2022 年,经历了 OLAP、IoT 的捶打后,我选择加入了向量数据库的赛道。遥想当时,向量数据库还是一个非常小众的赛道,朴素的直觉告诉我,Database for AI 的场景一定有前景。不过,现实却是直到 2022 年下半年,我们还是要和广大开发者布道——什么是向量数据库、它能解决什么问题。
2024-01-24
对数据库的总结
1.数据库是一个用于存储和操作数据的文件系统2.关系型数据库:是基于二维表存储的,每个表格由列和行组成,列代表属性,行代表约束,数据的组织和查询更加方便和高效。3.库表操作结构:MySQL和Oracle,通用工具Navicat4.SQL语句的库表操作:create table:创建表alter table:修改表drop table:删除表truncate table:...
2025-03-21
Elasticsearch系列---前缀搜索和模糊搜索
我们在前面了解的搜索,词条是最小的匹配单位,也是倒排索引中存在的词,现在我们来聊聊部分匹配的话题,只匹配一个词条中的一部分内容,相当于mysql的"where content like '%love%'",在数据库里一眼就能发现这种查询是不走索引的,效率非常低。
我写了一个套路,助你随心所欲运用二分搜索
我们前文 我作了首诗,保你闭着眼睛也能写对二分查找 详细介绍了二分搜索的细节问题,探讨了「搜索一个元素」,「搜索左侧边界」,「搜索右侧边界」这三个情况,教你如何写出正确无 bug 的二分搜索算法。
2021-07-16
探索图像检索:从理论到实战的应用
本文深入探讨了图像检索技术及其在主流APP中的应用,涵盖了特征提取、相似度计算、索引技术,以及在电商、社交媒体和云服务中的实际应用案例。关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理...
2024-01-26
别告诉我,你还不懂索引
大家好,我是🐟老师,今天我们来学习索引。文章阅读时长约13分钟。什么是索引呢索引是一个对存储的数据进行快速检索的数据目录,在数据磁盘的索引区内存储的就是数据的目录,数据磁盘的数据区就是具体存放数据的区域。索引是帮助MySQL高效获取数据的排好序的数据结构(存储结构)索引的数据结构有很多种:二叉树红黑树Has...
2023-03-02
ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑
如:当系统数据量上了 10 亿、100 亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题: 1)用什么数据库好?(mysql、oracle、mongodb、hbase…) 2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ) 3)如何保证数据安全性;(热备、冷备、异地多活) 4)如何解决检索难题;(数据库代理中间件:mysql-proxy、Co...
2023-10-31
OpenAI的搜索产品还在待产,中国用户已经用天工AI搜索玩起了黄金投资
OpenAI要做AI搜索这件事已经传了很久,近期又有新消息爆料OpenAI 的 AI 搜索产品 Sonic - SNC(SearchGPT)已进入评估阶段。反观国内,昆仑万维的天工AI搜索(官网链接:[链接])已经稳坐AI搜索赛道,产品持续迭代、稳步升级!
2024-05-07
Android SQLite数据库查询优化方法
我们在使用SQLite进行数据存储查询的时候,要进行查询优化,这里就会用到索引,C端的数据量大部分情况下面虽然不是很大,但良好的索引建立习惯往往会带来不错的查询性能提升,同时在未知的将来经得住更大数据的考验,那如何优化数据库查询呢,下面我们用例子一一演示下。
mongodb 索引实操
向 mydoc 集合中,插入多条数据,mydoc 之前是没有存在过的,我们直接使用 db.mydoc.insertMany() ,mongodb 会默认给我们新建这个集合
2022-10-22
搜索图片有新招了!北大课题组提出图像检索新方法,输入草图or艺术or低分辨率 | ECCV 2024
北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务:通用风格检索(Style-Diversified Retrieval)。
2024-08-22
第20篇-不和谐如何索引数十亿条消息
我的Elasticsearch系列文章,逐渐更新中,欢迎关注 0A.关于Elasticsearch及实例应用 00.Solr与ElasticSearch对比 01.ElasticSearch能做什么? 02.Elastic Stack功能介绍 03.如何安装与设置Elasticsearch API 04.如果通过elasticsearch的head插件建立索引_CRUD操作 05.Elasticsearch多个实例和head plugin使用介绍 06.当E...
2020-06-27
东京奥运会与网络安全背后的速度博弈!
北京时间7月23日晚19点,东京奥运会在日本东京奥林匹克体育场举行开幕式,这届东京奥运会真的可以称得上是“命运多舛”呀~ 用一句话总结“这是一场技术与速度的博弈,失败者将承担无法想像的后果!”
2021-07-27
日本RPA工程师的现状和未来
在日本使用RPA成功实现业务自动化的企业越来越多,RPA已经逐渐成为活跃在各行业比较热门的技术之一,RPA人才也在日本IT职场备受关注。那么,在日本被称为“RPA工程师”的这些人,到底在做一些什么样的工作呢?他们的优势以及未来的前景是什么样的呢?本期我们来一起关注日本RPA工程师的那些事儿。
2019-07-10
Nginx Geoip2 处理不同国家 (或城市) 的访问
ar414最近搞了一套AB站(不是acfun和bilibili,AB站:文中的AB站指的是同一个域名,可返回两种不同的资源),客户主要是做谷歌和FaceBook推广,A站是为了过审和过平台检查,B站是目标网站主要推广日本地区。日本国家的用户访问 www.abc.com 看到的是B站,非日本国家的用户访问 www.abc.com 看到的是A站。
2020-05-25
Oracle SQL语句之常见优化方法总结
SQL语句尽量用大写的; 因为oracle总是先解析SQL语句,把小写的字母转换成大写的再执行。 2、使用表的别名: 当在SQL语句中连接多个表时, 尽量使用表的别名并把别名前缀于每个列上。这样一来, 就可以减少解析的时间并减少那些由列歧义引起的语法错误。 3、选择最有效率的表名顺序(只在基于规则的优化器(RBO)中有效): ...
2020-03-17