使用Flink完成流数据统计 | 京东云技术团队

2023-12-11
阅读 4 分钟
278
一、统计流程所有流计算统计的流程都是:1、接入数据源2、进行多次数据转换操作(过滤、拆分、聚合计算等)3、计算结果的存储 其中数据源可以是多个、数据转换的节点处理完数据可以发送到一个和多个下一个节点继续处理数据Flink程序构建的基本单元是stream和transformation(DataSet实质上也是stream)。stream是一个中间...
封面图

UData+StarRocks在京东物流的实践 | 京东物流技术团队

2023-11-28
阅读 6 分钟
233
服务维护难度大:当开发了大量数据服务后,后期维护是大问题,尤其是618、双11大促期间,在没有统一的监控、限流、灾备方案的情况下一个人维护上百个数据服务是一件很痛苦的事,也造成了很大的安全隐患
封面图

浅谈埋点及其质量保障 | 京东云技术团队

2023-11-22
阅读 4 分钟
236
埋点又称为事件追踪(Event Tracking),指的是针对用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。用大白话说:就是通过技术手段“监听”用户在APP、网站内的行为。
封面图

达达埋点迁移京东子午线实践 | 京东云技术团队

2023-11-20
阅读 2 分钟
334
使用集团的统一埋点采集能力和埋点平台,完成达达7条业务线共43个站点应用的埋点迁移,降低自研采集工具和平台的研发投入和机器成本,打通数据链路,创造更多的数据分析价值。具体降本增效价值如下:
封面图

京东科技埋点数据治理和平台建设实践 | 京东云技术团队

2023-10-30
阅读 6 分钟
380
本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能。读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值。遵循埋点治理的方法论,本文作者团队已在实践中取得优异成效,在同行业内有突出的创新功能,未...
封面图

探析ElasticSearch Kibana在测试工作中的实践应用 | 京东物流技术团队

2023-09-20
阅读 4 分钟
675
离线数据测试中最重要的就是数据验证,一部分需要测试es存储数据的正确性,另一部分就需要验证接口从es取值逻辑的正确性。而为了验证es取值逻辑的正确性,就需要用到Kibana, 它能帮助测试同学更加快速高效的执行es数据的查询,大大提高测试效率。

GPT-4助力数据分析:提升效率与洞察力的未来关键技术 | 京东云技术团队

2023-08-09
阅读 4 分钟
348
随着大数据时代的到来,数据分析已经成为企业和组织的核心竞争力。然而,传统的数据分析方法往往无法满足日益增长的数据分析需求的数量和复杂性。在这种背景下,ChatGPT-4作为一种先进的自然语言处理技术,为数据分析带来了革命性的提升,助力企业和组织更高效地挖掘数据价值。本文将探讨ChatGPT-4在数据分析中的应用,...
封面图

竞速榜实时离线对数方案演进介绍 | 京东云技术团队

2023-07-31
阅读 2 分钟
352
竞速榜是大促期间各采销群提供的基于京东实时销售数据的排行榜,同样应对大促流量洪峰场景,通过榜单撬动品牌在京东增加资源投入。竞速榜基于用户配置规则进行实时数据计算,榜单排名在大促期间实时变化,相关排名数据在微博、朋友圈广泛传播,相关计算以及排名的准确性至关重要。
封面图

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

2023-07-25
阅读 3 分钟
370
大数据时代,越来越多的业务依赖实时数据用于决策,比如促销调整,点击率预估、广告分佣等。为了保障业务的顺利开展,也为了保证整体大数据链路的高可用性,越来越多的0级系统建设双流,以保证日常及大促期间数据流的稳定性。建设核心数据链路双机房,双流双活。同时双流建设需要整条链路上的所有环节双机房部署,占用了...
封面图

基于 ClickHouse 解决活动海量数据问题 | 京东云技术团队

2023-07-17
阅读 13 分钟
409
魔笛活动平台要记录每个活动的用户行为数据,帮助客服、运营、产品、研发等快速处理客诉、解决线上问题并进行相关数据分析和报警。可以预见到需要存储和分析海量数据,预估至少几十亿甚至上百亿的数据量,所以需要选择一款能存储海量数据的数据库。由于是通过接收MQ存储或者API方式存储,所以对实时写入性能也有一定要求...
封面图

我在京东做研发丨京东云全链路应用性能监控体系建设

2023-05-25
阅读 1 分钟
598
随着业务的快速发展相关技术的快速迭代如何在庞杂的业务和技术架构的背景下对我们的业务应用运行健康情况进行全面监控帮助大家快速地发现、定位并解决问题从而降低故障影响,提升用户体验本期,京东云PaaS产品研发部产品经理为你带来京东云全链路应用性能监控体系建设的故事
封面图

以数据思维和技能提升数据应用测试实践 | 京东云技术团队

2023-05-12
阅读 3 分钟
575
数据质量组当前主要承接黄金眼和商智中的供应链模块,商智包括PC(品牌版:商家端,运营端)和M端。各模块的产品特征和测试范围和策略的通用模式如下图所示,图中灰色部分是待建设中。
封面图

手把手教程 | 5分钟用轻量云主机搭建一个JupyterLab

2023-04-18
阅读 3 分钟
844
JupyterLab作为一种基于web的集成开发环境,被称为下一代的Jupyter Notebook,你可以使用它编写notebook、操作终端、编辑markdown文本、打开交互模式、查看csv文件及图片等功能,支持Python等多种语言,十分适合做数据分析及可视化工作。 随着GPT大模型算法的盛行,数据分析已经从过去传统的人为打标、清洗的运营流程转向...
封面图

浅谈离线数据倾斜

2023-04-18
阅读 7 分钟
639
用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的
封面图

一种自平衡解决数据倾斜的分表方法

2023-03-30
阅读 5 分钟
475
先简述一下B令牌的业务背景,B令牌系统是用于营销场景中,将许多用户绑定在一个令牌上,再将令牌绑定在促销上,从而实现差异和精准营销,一般情况下一个令牌的生命周期等同于这个促销。
封面图

ElasticSearch必知必会-基础篇

2023-01-10
阅读 29 分钟
1.2k
定义: 相同文档结构(Mapping)文档的结合 由唯一索引名称标定 一个集群中有多个索引 不同的索引代表不同的业务类型数据 注意事项: 索引名称不支持大写 索引名称最大支持255个字符长度 字段的名称,支持大写,不过建议全部统一小写
封面图

图计算引擎分析——Gemini

2022-12-27
阅读 11 分钟
970
Gemini是目前state-of-art的分布式内存图计算引擎,由清华陈文光团队的朱晓伟博士于2016年发表的分布式静态数据分析引擎。Gemini使用以计算为中心的共享内存图分布式HPC引擎。通过自适应选择双模式更新(pull/push),实现通信与计算负载均衡[‎1]。图计算研究的图是数据结构中的图,非图片。实际应用中遇到的图,如社交...
封面图

KVC原理与数据筛选

2022-11-29
阅读 9 分钟
960
key-value-coding:键值编码,一种可以通过键名间接访问和赋值对象属性的机制KVC是通过NSObject、NSArray、NSDictionary等的类别来实现的主要方法包括一下几个:
封面图

ClickHouse与Elasticsearch压测实践

2022-08-29
阅读 9 分钟
1.4k
1 需求分析1.1 分析压测对象1)什么是ClickHouse 和ElasticsearchClickHouse 是一个真正的列式数据库管理系统(DBMS)。在 ClickHouse 中,数据始终是按列存储的,包括矢量(向量或列块)执行的过程。只要有可能,操作都是基于矢量进行分派的,而不是单个的值,这被称为«矢量化查询执行»,它有利于降低实际的数据处理开销。
封面图

运维大规模ES集群的思考和实践

2021-01-13
阅读 3 分钟
3.3k
运维大规模ES集群的思考和实践Elasticsearch是 一个分布式、RESTful风格的搜索和数据分析引擎。 在开源搜索领域已经遥遥领先其他产品。随着近年来ES的快速发展,ES已经逐步从单一搜索引擎进化成一个全能型的数据产品。在日志监控,全文检索,数据库加速,大数据分析等很多领域得到广泛应用。

京东智联云与CDA携手 共同打造电商领域数字化人才认证标准

2020-12-15
阅读 2 分钟
1.4k
在新型市场环境下无论是传统企业,还是新型互联网企业,电商无疑已经成为一个重要的渠道抓手,如今的视频内容+电商的深度融合,用户对视频内容+电商的接受度不断提升,急需电商行业证书来培养和规范电商行业人才。考试认证将引导从业者如何从事电商行业人才,通过真实的电商案例,获得实战经验。

11.11数据可视化大屏设计揭秘

2020-11-27
阅读 4 分钟
4.8k
万众期待的京东11.11全球热爱季落下帷幕,巅峰狂欢中,多少人的购物车在这一天成为了GDP野马,创造的商业价值年年翻新,节节拔高,这背后的数据和流量,让消费者和企业更加直观、明确地捕捉到最新的消费风向,而每年同期公开展示的系列数据大屏正是这其中重要的一环。

用一行Python进行数据收集探索

2019-10-09
阅读 2 分钟
1.2k
任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装: