遗留和现代数据库中的向量搜索
遗留和现代数据库中的向量搜索向量数据库是一种将数据(包括文本、图像、音频和视频)存储为向量的数据库,向量是高维空间中对象或概念的数学表示。注意:根据数据的复杂程度和细节,每个向量的维数可能差别很大,从几个到几千个不等。1. 介绍在过去的两到三年里,数据库领域发生了几个关键变化:出现了一种新的"向量数...
2024-05-27
Paper Reading | 多模数据库经典论文回顾
在这个数据驱动的时代,我们每天都在与海量信息打交道。从结构化的数字表格到复杂的JSON 对象,再到自由形式的文本内容,数据的多样性前所未有地丰富。
2025-03-06
MySQL 过渡 PostgreSQL 经验
声明 本文思路从一开始就定位为基于云数据库来部署,不考虑生产环境自己搭建、维护、备份 本文只为:sculptor-boot-generator 代码生成器体系服务 Github Gitee 感谢群里老鐡童鞋审稿! PostgreSQL 资料打包 关注公众号:cd-k8s,聊天窗口输入:postgresql 可以得到 1 套视频、9 本 PDF 资料 总结 MySQL 的用户群体性好于...
如何使用ClickHouse实现时序数据管理和挖掘?
ClickHouse是一个高效的开源联机分析列式数据库管理系统,由俄罗斯IT公司Yandex开发的,并于2016年6月宣布开源。本次文章将详细解读京东城市时空数据引擎JUST([链接])是如何使用ClickHouse实现时序数据管理和挖掘的。
通过增强PDF结构识别,革新检索增强生成技术(RAG)
尽管大语言模型(LLM)在自然语言生成方面取得了巨大的进展,但对于专业知识问答领域来说,结合检索增强生成技术(RAG) 可以更好地利用领域专家知识、提供解释性的优势,提高问答准确率。
ChatGPT搜索风暴
搜索引擎的市场格局已经有二十年没有什么大的变化,如今,Google和微软两大巨鳄的交锋再度上演。ChatGPT风靡之时,搜索成为大型语言模型(LLM)应用之争的最大战场。在LLM技术进程方面,Google的相关大模型研发实际上与OpenAI的ChatGPT差不多齐头并进。但刚刚仓促推出的Bard显得很被动,Google官方的解释是,他们需要考...
2023-02-17
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
「排序学习(Learning to Rank,LTR)」,也称「机器排序学习(Machine-learned Ranking,MLR)」 ,就是使用机器学习的技术解决排序问题。自从机器学习的思想逐步渗透到信息检索等领域之后,如何利用机器学习来提升信息检索的性能水平变成了近些年来非常热门的研究话题,因此产生了各类基于机器学习的排序算法,也带来了...
2023-02-28
技术人攻略访谈三十五|小猴机器人:征途路上,星辰大海
导语:本期访谈对象@小猴机器人,清华人工智能专业博士在读。2009年开始,他参与实验室的无人车项目,和军事交通学院共同研发“军交猛狮III号”无人车。这辆由黑色现代ix35改装的大家伙,配备雷达、摄像头和GPS传感器,可精确识别路况、判断障碍物,并自主进行刹车、油门、制动、换挡等操作。身为概率论、AI、Python的狂热...
PGL图学习之图神经网络GNN模型GCN、GAT[系列六]
ICLR2023的评审结果已经正式发布!今年的ICLR2023共计提交6300份初始摘要和4922份经过审查的提交,其中经过审查提交相比上一年增加了32.2%。在4922份提交内容中,99%的内容至少有3个评论,总共有超过18500个评论。按照Open Review评审制度,目前ICLR已经进入讨论阶段。
2022-11-18
论文<Learning to Promote Saliency Detectors>阅读
Learning to Promote Saliency Detectors [链接] 缩写标注: SD: Saliency Detection ZSL: Zero-Shot Learning 关键内容: 没有训练直接将图像映射到标签中的DNN。相反,将DNN拟合为一个嵌入函数,以将像素和显著/背景区域的属性映射到度量空间。显着/背景区域的属性被映射为度量空间中的锚点。然后,在该空间中构造最近邻...
2019-01-10
分布式主动感知在智能运维中的实践|分享实录
导读:企业数字化使得运维智能化转型成为必然,宜信积极推动 AIOps 在科技金融企业的落地实践。本次主题是探索 AIOps 落地的一种形式:通过行为采集、仿真模拟、主动感知等手段,从用户侧真实系统使用体验出发,结合全维监控数据,更加有效的实现智能异常检测和根因分析。
零代码使用腾讯TBP打造智能对话机器人
心疼你独自一人承担生活的苦难,寂寞夜里陪伴你的只剩无人倾诉的压抑和无处安放的焦虑。养个宠物,它却不能get到你的“宠言宠语”。找个伴侣,还要浪费吵架的时间和精力。回到家里,只能浸泡在“循环唠叨式“母爱的沐浴。当一个人在你身边活的恰到好处的时候,就是在成全你,做自己!这样的人已经出现,只是你还不知道而已。...
2020-01-02
应对数据爆炸时代,揭秘向量数据库如何成为AI开发者的新宠,各数据库差异对比
随着大模型的爆火,向量数据库也越发成为开发者关注的焦点。为了方便大家更好地了解向量数据库,我们特地推出了《Hello, VectorDB》系列,本文将从宏观角度、向量数据库与其他算法库的区别、技术难点及如何选择向量数据库等方面,带大家认识真正的向量数据库。
2023-11-22
生成式推荐系统与京东联盟广告-综述与应用
大型语言模型(LLM)正在深刻地影响自然语言处理(NLP)领域,其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。推荐系统(RS)作为解决信息过载的有效手段,已经紧密融入我们的日常生活,如何用LLM有效重塑RS是一个有前景的研究问题[20, 25]。
2024-06-13
SIGIR 2021 | 广告系统位置偏差的CTR模型优化方案
美团到店广告平台算法团队基于多年来在广告领域上积累的经验,一直在数据偏差等业界挑战性问题不断进行深入优化与算法创新。在之前分享的《KDD Cup 2020 Debiasing比赛冠军技术方案与广告业务应用》一文[4]中,团队分享了在KDD Cup比赛中取得冠军的选择性偏差以及流行度偏差的解决方案,同时也分享了在广告业务上偏差优...
2021-06-16
云音乐视频搜索优化之旅
谈到搜索,大家日常生活已离不开此功能,例如通用搜索引擎Google百度,购物时的电商搜索,听歌时的音乐app搜索等。在不同的业务场景下,搜索的业务本质与目标也有着很大异同。在电商场景下,搜索本质上是非精准导向的,因为满足用户query意图的商品候选量级极大,个性化的作用极大的被彰显,在query理解、召回及排序的各...
企业开源该选什么软件许可证?
开源社KAIYUANSHE以下文章来源于夜天之书 ,作者tisonkun[夜天之书 .A morden wizard.](#)开源软件和自由软件的概念与其许可证紧密绑定。通常,开源软件被定义为使用 OSI 认可的,即符合开源定义[1]的许可证来分发的软件,而自由软件被定义成使用 GPL 或说 Copyleft 式许可证分发的软件。尽管今天人们最关心的可能是软件...
2022-12-23