向量数据库落地实践

4 月 3 日
阅读 7 分钟
43
一、前言本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: [链接]二、探索初次认识向量数据库,一脸懵逼? 向量是什么?如何将文本转换为向量?如何确定维度?如何定义表结构?如何选择索引方式,建表参数如何配置?检索参数如何配置?分片数副...

DBCP一个配置,浪费了MySQL 50%的性能!

3 月 26 日
阅读 7 分钟
43
数据库性能优化对于保证应用的响应速度和处理大量数据的能力至关重要。它可以显著减少查询时间,提高事务处理效率,降低硬件成本,并确保系统稳定性与可扩展性。优化后的数据库能够更好地服务于用户需求,增强客户满意度,对企业的长期发展和竞争力具有深远影响。

一个数据库死锁竟然被测试发现了,这你敢信

3 月 13 日
阅读 2 分钟
48
测试生产监控发现数据库死锁报错:org.springframework.dao.DeadlockLoserDataAccessException:

再聊对架构决策记录的一些思考

2 月 22 日
阅读 2 分钟
305
1 引言第一次在社区发文聊ADR(架构决策记录)是在2022年8月份,在文章( 轻量级ADR机制 )中,详细介绍了以下几个主题:•团队研发面临的主要问题•ADR的结构剖析•ADR的存储形式•ADR在研发流程中所处的位置•ADR常见的误区与疑问在实践中发现仍然有一些普遍性问题与挑战可以探讨。2 研发团队一些普遍现象视角一:架构决策...

人人都是架构师-清晰架构 | 京东物流技术团队

2 月 21 日
阅读 12 分钟
239
EBI架构(Entity-Boundary-Interactor Architecture) 领域驱动设计(Domain-Driven Design) 端口与适配器架构(Ports & Adapters Architecture,又称为六边形架构) 洋葱架构(Onion Architecture) 整洁架构(Clean Architecture) 事件驱动架构(Event-Driven Architecture) 命令查询职责分离模式(CQRS,即Command Query Respons...

分布式场景怎么Join | 京东云技术团队

2 月 20 日
阅读 3 分钟
264
最近在阅读查询优化器的论文,发现System R中对于Join操作的定义一般分为了两种,即嵌套循环、排序-合并联接。在原文中,更倾向使用排序-合并联接逻辑。

大促削峰实战:评价QPS降低85%的背后逻辑

2 月 4 日
阅读 3 分钟
181
京东APP商品详情页展示的评价数据通过单独请求评价接口获取,与商详模块流量近乎1:1,需要共同应对秒杀等海量流量的冲击,存在突发流量风险。经过对用户操作行为和评价埋点信息分析,评价调用与商详流量解耦可行,预期收益显著。为此,评价与商详模块研发人员组成虚拟攻坚小组,推进解耦方案实施。

京东广告算法架构体系建设--大规模稀疏场景高性能训练方案演变

2 月 2 日
阅读 4 分钟
132
京东广告训练框架随着广告算法业务发展的特点也在快速迭代升级,回顾近几年大致经历了两次大版本的方案架构演变。第一阶段,随着2016年Tensorflow训练框架的开源,业界开始基于Tensorflow开源框架训练更复杂的模型。模型对特征规模和参数规模需求不断提升,大规模稀疏模型具有更强的表征能力,逐渐成为算法的主流趋势。...

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

2 月 2 日
阅读 5 分钟
199
本文展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析,Doris 1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。

关于「日志采样」的一些思考及实践

2 月 2 日
阅读 3 分钟
153
当业务规模较小时,大家都倾向于享受日志带来的便利,从而忽略日志带来的潜在的负面影响,缺乏对日志的管控。在JD当前用户量、业务规模下,绝大多数C端系统、甚至B端系统都是高吞吐的,毫无疑问,过大的日志量对系统的性能、磁盘IO有着显著负面影响,赶上大促时,问题尤为突出。日志在为我们提供便利的同时,也无时无刻...

聊聊ClickHouse MergeTree引擎的固定/自适应索引粒度

2 月 1 日
阅读 6 分钟
138
我们在刚开始学习ClickHouse的MergeTree引擎时,就会发现建表语句的末尾总会有SETTINGS index_granularity = 8192这句话(其实不写也可以),表示索引粒度为8192。在每个data part中,索引粒度参数的含义有二:

【京东云新品发布月刊】2024年1月产品动态来啦

1 月 31 日
阅读 2 分钟
145
京东莫奈可视化平台通过自由拖拽、图形化编辑、所见即所得的方式,快速实现极致酷炫、直观清晰的视觉场景,将海量繁杂数据背后所蕴含的价值更直观、深层、全面的展现出来,辅助决策者合理决策。

streampark+flink一键整库或多表同步mysql到doris实战

1 月 31 日
阅读 3 分钟
135
streampark+flink一键整库或多表同步mysql到doris实战,此应用一旦推广起来,那么数据实时异构时,不仅可以减少对数据库的查询压力,还可以减少数据同步时的至少50%的成本,还可以减少30%的存储成本;

数据质量和数据治理的关系 | 京东云技术团队

1 月 30 日
阅读 3 分钟
164
很多不太了解的人会认为:数据治理就是干数据清洗的。近两年,在我们公司,数据治理团队在数据降本方面做的比较多,效果还不错,我们很多人可能以为:数据治理就是做数据清理的。在京东科技集团数据治理工作组第一次全体会议上,我就讲过数据治理和数据清洗之间的关系:数据清洗只是指通过识别和纠正数据中的错误、缺失...

复杂SQL治理实践 | 京东物流技术团队

1 月 29 日
阅读 11 分钟
148
软件在持续的开发和维护过程中,会不断添加新功能和修复旧的缺陷,这往往伴随着代码的快速增长和复杂性的提升。若代码库没有得到良好的管理和重构,就可能积累大量的技术债务,包括不一致的设计、冗余代码、过时的库和框架以及不再使用的功能。这些因素都会导致软件结构的脆弱,增加系统出错的可能性,我们俗称为“代码腐...

2023京东零售技术年度盘点

1 月 23 日
阅读 7 分钟
240
过去一年,围绕开放生态建设、低价心智等主要方向,京东零售技术团队持续攻坚。从百亿补贴、调整流量分配机制为用户提供低价品质好货,到简化商家进驻流程、优化商家体验,带动商家数量增长和平台生态活跃,再到将大模型结合到内部大量业务场景,探索效率提升……快速响应、助力业务的同时,京东零售技术团队继续夯实增强...

大数据平台红蓝对抗 - 磨利刃,淬精兵!

1 月 23 日
阅读 4 分钟
95
目前大促备战常见备战工作:专项压测(全链路压测、内部压测)、灾备演练、降级演练、限流、巡检(监控、应用健康度)、混沌演练(红蓝对抗),如下图所示。随着平台业务越来越复杂,红蓝对抗的作用愈来愈明显,下面将详细介绍大数据平台在大促备战工作中是如何开展红蓝对抗的。

到店商详架构变迁

1 月 18 日
阅读 2 分钟
69
一、项目背景到店商详是平台为京东到店业务提供的专属商详页面,将传统电商购物路径打造成以LBS+门店属性的本地生活服务交易链路。二、架构变迁1、 主站商详扩展点优点:到店侧仅关注业务,无需过度关注服务部署、性能优化等。缺点:涉及方较多,需求开发周期长,上线依赖方多;到店侧无法了解到全流程,不利于长期迭代...

如何实现数据库读一致性

1 月 17 日
阅读 5 分钟
155
举个例子:某系统实现读写分离,读数据库是写数据库的备份库,小李在系统中之前录入的学历信息是高中,经过小李努力学习,成功获得了本科学位。小李及时把信息变成成了本科,可是由于今天系统备份时间较长,小李变更信息时,数据已经开始备份。公司的HR通过系统查询小李信息时,发现还是本科,小李的申请被驳回。这就是...

线索系统性能优化实践

1 月 11 日
阅读 8 分钟
128
在京东家居事业部,线索CRM系统扮演着至关重要的角色,它作为构建家居场景核心解决方案集的首要环节,肩负着获客和拓展业务的重要使命。然而,随着业务的不断扩张和市场需求的日益增长,系统原有的架构开始显露出诸多不适应之处,如架构设计不再清晰,代码存在过量冗余,核心的读写接口响应时间长等问题,这些问题严重制...

系统存储架构升级分享

1 月 10 日
阅读 5 分钟
157
一、业务背景系统业务功能:系统内部进行数据处理及整合, 对外部系统提供结果数据的初始化(写)及查询数据结果服务。系统网络架构:•部署架构对切量上线的影响 - 内部管理系统上线对其他系统的读业务无影响•分布式缓存可进行单独扩容, 与存储及查询功能升级无关•通过缓存层的隔离, 系统扩展期间外部系统可保持不变, 只对内...

数字化时代下的数字化资产及其治理 |京东云技术团队

1 月 9 日
阅读 8 分钟
133
维克托·迈尔·舍恩伯格在《大数据时代》中提到:“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。”数据资源将和土地、人力、资金等生产要素一样,成为企业的资产。业界对于数据资产的定义是企业或组织拥有或控制的,能在未来带来经济利益的数据资源。

Mybatis 拦截器实现单数据源内多数据库切换 | 京东物流技术团队

1 月 8 日
阅读 5 分钟
309
物流的分拣业务在某些分拣场地只有一个数据源,因为数据量比较大,将所有数据存在一张表内查询速度慢,也为了做不同设备数据的分库管理,便在这个数据源内创建了多个不同库名但表完全相同的数据库,如下图所示:

Spring 应用合并之路(一):摸石头过河 | 京东云技术团队

1 月 4 日
阅读 3 分钟
185
公司在推进降本增效,在尝试多种手段之后,发现应用太多,每个应用都做跨机房容灾部署,则最少需要 4 台机器(称为容器更合适)。那么,将相近应用做一个合并,减少维护项目,提高机器利用率就是一个可选方案。

2024了,我不想再用AOP收集业务操作日志了 | 京东云技术团队

1 月 4 日
阅读 8 分钟
238
在近期的项目中,系统涉及到针对系统的业务操作日志统计功能,由于本系统位于业务链路的中心环节,负责接收上游系统的数据,并将基于用户操作产生的数据传递至下游系统,鉴于业务链路的复杂性和操作场景的多样性,我们计划通过对核心业务数据进行全生命周期的日志记录来提升问题解决的效率,并为用户提供更多的工具支持。

大数据平台Bug Bash大扫除最佳实践

1 月 3 日
阅读 4 分钟
124
随着越来越多的"新人"在日常工作以及大促备战中担当大任,我们发现仅了解自身系统业务已不能满足日常系统开发运维需求。为此,大数据平台部门组织了一次Bug Bash活动,既能提升自己对兄弟产品的理解和使用,又能促使自家产品功能日趋完善。今天来给大家分享一些实际操作过程和经验总结~

DDD落地实践-架构师眼中的餐厅 | 京东云技术团队

1 月 3 日
阅读 7 分钟
706
本文以餐厅场景为叙事主线,以领域驱动为核心思想,结合架构设计与功能设计方法论。是从领域分析到落地的全过程案例,内容偏重于落地,因此不乏一些探讨,欢迎指正。

《中国人民银行业务领域数据安全管理办法》与个人信息保护关键技术研究 | 京东云技术团队

1 月 2 日
阅读 6 分钟
464
在大数据环境下,通过个人用户网络活动产生的数据,可以清晰地分析出用户的年龄、职业、行为规律和兴趣爱好。特别是随着电子商务和移动网络的应用和普及,个人用户的地址、联系方式和银行账户信息也可以通过大数据挖掘或网络爬虫等手段获取。因此,个人信息安全管理压力增大,用户个人信息泄露事件时有发生。莫名其妙的...

【积微成著】性能测试调优实战与探索(存储模型优化+调用链路分析)| 京东物流技术团队

1 月 2 日
阅读 7 分钟
168
性能测试之于软件系统,是保障其业务承载能力及稳定性的关键措施。以软件系统的能力建设为主线,系统能力设计工作与性能测试工作,既有先后之顺序,亦有相互之影响。以上,在性能测试的场景决策,架构分析、流量分析、压测实施和剖解调优等主要环节中,引发对于系统能力底盘夯实和测试策略改进的诸多思考。

治理要从数据建模抓起 | 京东云技术团队

2023-12-27
阅读 2 分钟
460
数据治理是对数据管理权力的执行和落实。数据建模可以被认为是对数据定义权力的执行和实施。数据建模这门学问涉及到在"正确"的时间,由"正确"的人,为组织定义"正确"的数据, 这就是数据治理的本质。