如何使用ClickHouse实现时序数据管理和挖掘?
ClickHouse是一个高效的开源联机分析列式数据库管理系统,由俄罗斯IT公司Yandex开发的,并于2016年6月宣布开源。本次文章将详细解读京东城市时空数据引擎JUST([链接])是如何使用ClickHouse实现时序数据管理和挖掘的。
通过增强PDF结构识别,革新检索增强生成技术(RAG)
尽管大语言模型(LLM)在自然语言生成方面取得了巨大的进展,但对于专业知识问答领域来说,结合检索增强生成技术(RAG) 可以更好地利用领域专家知识、提供解释性的优势,提高问答准确率。
ChatGPT搜索风暴
搜索引擎的市场格局已经有二十年没有什么大的变化,如今,Google和微软两大巨鳄的交锋再度上演。ChatGPT风靡之时,搜索成为大型语言模型(LLM)应用之争的最大战场。在LLM技术进程方面,Google的相关大模型研发实际上与OpenAI的ChatGPT差不多齐头并进。但刚刚仓促推出的Bard显得很被动,Google官方的解释是,他们需要考...
2023-02-17
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
「排序学习(Learning to Rank,LTR)」,也称「机器排序学习(Machine-learned Ranking,MLR)」 ,就是使用机器学习的技术解决排序问题。自从机器学习的思想逐步渗透到信息检索等领域之后,如何利用机器学习来提升信息检索的性能水平变成了近些年来非常热门的研究话题,因此产生了各类基于机器学习的排序算法,也带来了...
2023-02-28
技术人攻略访谈三十五|小猴机器人:征途路上,星辰大海
导语:本期访谈对象@小猴机器人,清华人工智能专业博士在读。2009年开始,他参与实验室的无人车项目,和军事交通学院共同研发“军交猛狮III号”无人车。这辆由黑色现代ix35改装的大家伙,配备雷达、摄像头和GPS传感器,可精确识别路况、判断障碍物,并自主进行刹车、油门、制动、换挡等操作。身为概率论、AI、Python的狂热...
PGL图学习之图神经网络GNN模型GCN、GAT[系列六]
ICLR2023的评审结果已经正式发布!今年的ICLR2023共计提交6300份初始摘要和4922份经过审查的提交,其中经过审查提交相比上一年增加了32.2%。在4922份提交内容中,99%的内容至少有3个评论,总共有超过18500个评论。按照Open Review评审制度,目前ICLR已经进入讨论阶段。
2022-11-18
论文<Learning to Promote Saliency Detectors>阅读
Learning to Promote Saliency Detectors [链接] 缩写标注: SD: Saliency Detection ZSL: Zero-Shot Learning 关键内容: 没有训练直接将图像映射到标签中的DNN。相反,将DNN拟合为一个嵌入函数,以将像素和显著/背景区域的属性映射到度量空间。显着/背景区域的属性被映射为度量空间中的锚点。然后,在该空间中构造最近邻...
2019-01-10
分布式主动感知在智能运维中的实践|分享实录
导读:企业数字化使得运维智能化转型成为必然,宜信积极推动 AIOps 在科技金融企业的落地实践。本次主题是探索 AIOps 落地的一种形式:通过行为采集、仿真模拟、主动感知等手段,从用户侧真实系统使用体验出发,结合全维监控数据,更加有效的实现智能异常检测和根因分析。
零代码使用腾讯TBP打造智能对话机器人
心疼你独自一人承担生活的苦难,寂寞夜里陪伴你的只剩无人倾诉的压抑和无处安放的焦虑。养个宠物,它却不能get到你的“宠言宠语”。找个伴侣,还要浪费吵架的时间和精力。回到家里,只能浸泡在“循环唠叨式“母爱的沐浴。当一个人在你身边活的恰到好处的时候,就是在成全你,做自己!这样的人已经出现,只是你还不知道而已。...
2020-01-02
应对数据爆炸时代,揭秘向量数据库如何成为AI开发者的新宠,各数据库差异对比
随着大模型的爆火,向量数据库也越发成为开发者关注的焦点。为了方便大家更好地了解向量数据库,我们特地推出了《Hello, VectorDB》系列,本文将从宏观角度、向量数据库与其他算法库的区别、技术难点及如何选择向量数据库等方面,带大家认识真正的向量数据库。
2023-11-22
生成式推荐系统与京东联盟广告-综述与应用
大型语言模型(LLM)正在深刻地影响自然语言处理(NLP)领域,其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。推荐系统(RS)作为解决信息过载的有效手段,已经紧密融入我们的日常生活,如何用LLM有效重塑RS是一个有前景的研究问题[20, 25]。
2024-06-13
SIGIR 2021 | 广告系统位置偏差的CTR模型优化方案
美团到店广告平台算法团队基于多年来在广告领域上积累的经验,一直在数据偏差等业界挑战性问题不断进行深入优化与算法创新。在之前分享的《KDD Cup 2020 Debiasing比赛冠军技术方案与广告业务应用》一文[4]中,团队分享了在KDD Cup比赛中取得冠军的选择性偏差以及流行度偏差的解决方案,同时也分享了在广告业务上偏差优...
2021-06-16
云音乐视频搜索优化之旅
谈到搜索,大家日常生活已离不开此功能,例如通用搜索引擎Google百度,购物时的电商搜索,听歌时的音乐app搜索等。在不同的业务场景下,搜索的业务本质与目标也有着很大异同。在电商场景下,搜索本质上是非精准导向的,因为满足用户query意图的商品候选量级极大,个性化的作用极大的被彰显,在query理解、召回及排序的各...
企业开源该选什么软件许可证?
开源社KAIYUANSHE以下文章来源于夜天之书 ,作者tisonkun[夜天之书 .A morden wizard.](#)开源软件和自由软件的概念与其许可证紧密绑定。通常,开源软件被定义为使用 OSI 认可的,即符合开源定义[1]的许可证来分发的软件,而自由软件被定义成使用 GPL 或说 Copyleft 式许可证分发的软件。尽管今天人们最关心的可能是软件...
2022-12-23
国产分布式数据库开启新篇章!详解安全可靠测评结果公告(2024年第2号)
9月30日,国庆前夕,中国信息安全测评中心和国家保密科技测评中心联合发布了今年第二号测评结果,这份名单有效期三年,这不仅是对国产数据库产品的一种认可,更是对基础软件技术实力的肯定!
2024-10-07
熬夜肝出5大点,18张图带你彻底弄懂MySQL事务日志
在当今社会,充斥着大量的数据。从众多APP上的账户资料到银行信用体系等个人档案,都离不开对大量数据的组织、存储和管理。而这,便是数据库存在的目的和价值。目前数据库的类型主要分为两种,一种是关系型数据库,另一种是非关系型数据库(NoSQL)。而我们今天的主角MySQL就是关系型数据库中的一种。
2020-11-18
Advanced RAG 07:在RAG系统中进行表格数据处理的新思路
编者按: 目前,检索增强生成(RAG)系统成为了将海量知识赋能于大模型的关键技术之一。然而,如何高效地处理半结构化和非结构化数据,尤其是文档中的表格数据,仍然是 RAG 系统面临的一大难题。本文作者针对这一痛点,提出了一种处理表格数据的新颖解决方案。作者首先系统性地梳理了RAG系统中表格处理的核心技术,包括表...