Hive引擎底层初探

4 月 17 日
阅读 3 分钟
28
1、什么是Hive Hive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在Hadoop集群上执行数据处理和分析。2、Hive起源回答这个问题之前,先介绍下Hadoop。Hadoop是专门为离线和大数据分析而...

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

2023-12-25
阅读 9 分钟
153
摘要:在大数据领域中,Hive SQL被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,Hive SQL查询的性能往往不尽人意。本文针对Hive SQL的性能优化进行深入研究,提出了一系列可行的调优方案,并给出了相应的优化案例和优化前后的SQL代码。通过合理的优化策略和技巧,能够显著提升Hive SQL的...

使用Flink完成流数据统计 | 京东云技术团队

2023-12-11
阅读 4 分钟
279
一、统计流程所有流计算统计的流程都是:1、接入数据源2、进行多次数据转换操作(过滤、拆分、聚合计算等)3、计算结果的存储 其中数据源可以是多个、数据转换的节点处理完数据可以发送到一个和多个下一个节点继续处理数据Flink程序构建的基本单元是stream和transformation(DataSet实质上也是stream)。stream是一个中间...
封面图

浅谈埋点及其质量保障 | 京东云技术团队

2023-11-22
阅读 4 分钟
236
埋点又称为事件追踪(Event Tracking),指的是针对用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。用大白话说:就是通过技术手段“监听”用户在APP、网站内的行为。
封面图

大数据平台红蓝对抗 - 磨利刃,淬精兵! | 京东云技术团队

2023-11-21
阅读 4 分钟
259
目前大促备战常见备战工作:专项压测(全链路压测、内部压测)、灾备演练、降级演练、限流、巡检(监控、应用健康度)、混沌演练(红蓝对抗),如下图所示。随着平台业务越来越复杂,红蓝对抗的作用愈来愈明显,下面将详细介绍大数据平台在本次双十一大促备战工作中是如何开展红蓝对抗的。
封面图

Flink测试利器之DataGen初探 | 京东云技术团队

2023-10-13
阅读 6 分钟
272
Flink SQL 是基于 Apache Calcite 的 SQL 解析器和优化器构建的,支持ANSI SQL 标准,允许使用标准的 SQL 语句来处理流式和批处理数据。通过 Flink SQL,可以以声明式的方式描述数据处理逻辑,而无需编写显式的代码。使用 Flink SQL,可以执行各种数据操作,如过滤、聚合、连接和转换等。它还提供了窗口操作、时间处理和...
封面图

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

2023-07-25
阅读 3 分钟
372
大数据时代,越来越多的业务依赖实时数据用于决策,比如促销调整,点击率预估、广告分佣等。为了保障业务的顺利开展,也为了保证整体大数据链路的高可用性,越来越多的0级系统建设双流,以保证日常及大促期间数据流的稳定性。建设核心数据链路双机房,双流双活。同时双流建设需要整条链路上的所有环节双机房部署,占用了...
封面图

一种基于实时大数据的图指标解决方案

2023-03-22
阅读 2 分钟
594
在电商、金融风控领域,使用图来建模,将大量的人员和事件编织成一张庞大的图关系网络,构建图指标来识别异常人员和群体风险行为,目前图指标现有实现方式是基于离线数据或t+1数据构建图关系网络,图指标由业务人员或需求人员根据业务需要提出具体需求由开发人员临时开发、测试、部署、上线。
封面图

数据测试实践:从一个bug开始的大数据引擎兼容性探索

2023-03-07
阅读 4 分钟
769
在大数据时代,精准而有效的数据对于每个致力于长期发展的组织来说都是重要资产之一,而数据测试更是不可或缺的一部分。数据测试不仅关注数据加工的代码逻辑,还要考虑大数据执行引擎带来的影响,因为各种引擎框架将对同一份数据产生不同的计算或检索结果。本文将从一个年度账单bug引入,讲解在数据测试实践中对大数据执...
封面图

Hadoop 及Spark 分布式HA运行环境搭建

2023-02-21
阅读 8 分钟
875
工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结合Hadoop和Spark最新版本,帮助大家跟着步骤一步步实践环境搭建。
封面图

TiDB 底层存储结构 LSM 树原理介绍

2023-01-11
阅读 5 分钟
716
随着数据量的增大,传统关系型数据库越来越不能满足对于海量数据存储的需求。对于分布式关系型数据库,我们了解其底层存储结构是非常重要的。本文将介绍下分布式关系型数据库 TiDB 所采用的底层存储结构 LSM 树的原理。
封面图

隐私计算之多方安全计算(MPC,Secure Multi-Party Computation)

2022-12-28
阅读 7 分钟
1.8k
如今,组织在收集、存储敏感的个人信息以及在外部环境(例如云​​)中处理、共享个人信息时, 越来越关注数据安全。这是遵守隐私法规的强需求:例如美国加利福尼亚州消费者隐私法 (CCPA)、欧盟通用数据保护条例 (GDPR) 和世界各地的其他新兴法规,以及中国的《数安法》《个保法》等,都对安全处理敏感数据提出了要求。
封面图

京东金融APP-新交互技术“虚拟数字人”赋能世界杯主题营销

2022-12-27
阅读 5 分钟
1.2k
距离加文·伍德提出web3.0已经过去8年时间,这8年加文·伍德创建的以太坊大放异彩,同时由web3.0引出的数字人、元宇宙也生根发芽,茁壮成长,带来了非凡的用户体验。
封面图

双减来了!人工智能如何促进教育领域转型?

2021-10-11
阅读 1 分钟
2.4k
随着人工智能技术的高速发展,应用型人工智能人才的需求急速增长。根据《人民日报》报道,2020年中国人工智能人才缺口超500万,供求比例仅有1:10,专业人才严重缺失,如何培养相关人才成为了补上缺口的关键。
封面图

世界首台人工智能地震监测系统问世;AAAI 2021 | 利用深度元学习对城市销量进行预测

2021-03-30
阅读 4 分钟
1.2k
央视网推出基层治理大数据平台 打通政务服务“最后一米”RedMonk 编程语言排行榜:JS 持续霸榜,Dart 快速上升!Edge 和 Brave 将匹配 Chromium 的四周发布计划PyTorch 1.8 发布,支持 AMD,优化大规模训练世界首台人工智能地震监测系统问世 实时预警反馈提高 1 秒红帽 OpenShift 4.7 来了,进一步优化传统应用和云原生应...

跨越异构鸿沟,Redis 迁移同步过程中的挑战与解决方案

2021-02-26
阅读 2 分钟
2.9k
随着云计算十余年的高速发展,作为目前可见的最新阶段,多云正在快步大踏步前进。而多云趋势所带来得数据云间迁移,也逐步常态化。因此,_缓存 Redis 已成为高并发场景下提升数据访问速度的标配。_

大数据丨ClickHouse在京东能源管理平台的实践

2021-01-29
阅读 6 分钟
2.5k
ClickHouse是一款面向大数据场景下的OLAP数据库,相比于传统的基于Hadoop生态圈的OLAP大数据分析系统,ClickHouse具有极致的查询性能、轻量级的架构设计及维护简单等优势。目前社区活跃度高,业界应用实践日趋广泛。

AAAI 2021论文:利用深度元学习对城市销量进行预测

2020-12-31
阅读 4 分钟
1.3k
AAAI 2021论文:利用深度元学习对城市销量进行预测对于线上和线下的零售行业,销量预测都是一项至关重要的任务,它可以帮助企业更好的预备库存以及在各个仓库之间分配商品。特别是在大型购物节期间,强劲的促销活动将极大地促进消费。然而,可供参考的历史数据却非常稀缺。如何同时对城市的不同区域和不同时间段的销量进...

计算存储分离在消息队列上的应用

2020-12-24
阅读 4 分钟
1.2k
随着互联网的不断发展,大数据高并发不再遥远,是大部分项目都必须具备的能力。其中,消息队列几乎是必备技能。成熟的消息队列工具有很多,本篇文章就来介绍一款京东智联云自研消息队列工具——JCQ。

打开数“智”化之门,一字之差带来的思考

2020-12-24
阅读 3 分钟
2.1k
20年已至岁末,数字化发展如火如荼,产业数智化进程已势不可挡,数据量激增给传统企业带来前所未有的机遇,也带来了“甜蜜的烦恼”,如何让数据变成战斗力?如何让数字化发展更上一层楼?是众多传统企业数智化升级过程中,亟待解决的问题。

如何破解AI数据困境?京东智联云联邦学习平台有良方

2020-12-24
阅读 4 分钟
2.7k
随着互联网业务的不断发展,很多机构都积累了海量的线上数据,充分利用这些数据,进行相关的数据分析、特征挖掘、算法建模是各机构重点发展的方向。然而在大多数行业与企业中,数据是以孤岛形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在...

京东智联云与CDA携手 共同打造电商领域数字化人才认证标准

2020-12-15
阅读 2 分钟
1.4k
在新型市场环境下无论是传统企业,还是新型互联网企业,电商无疑已经成为一个重要的渠道抓手,如今的视频内容+电商的深度融合,用户对视频内容+电商的接受度不断提升,急需电商行业证书来培养和规范电商行业人才。考试认证将引导从业者如何从事电商行业人才,通过真实的电商案例,获得实战经验。

大促中为什么需要可视化监控大屏?

2020-12-10
阅读 2 分钟
2.5k
大数据时代,我们最常听到的一句话就是“用数据说话”。但数据本身都是冰冷的数字,它很难直接告诉我们哪些数据是有价值的信息。只有把相对复杂、抽象的数据通过可视的方式以人们更易理解的形式展示出来,才可以使传递给使用者的感受更加直观,也更容易获得其中价值,这种手段就叫做数据可视化。数据可视化可以更形象地表...

专访京东集团副总裁符庆明:深耕云计算11年,乘“新基建”东风,基础设施技术发展按下加速键

2020-12-02
阅读 4 分钟
2.6k
伴随着 2020 年新基建产业政策的出台,全行业数字化转型升级的进程被进一步加速,互联网科技巨头纷纷推出了自己的新基建战略布局规划,动辄数千亿投资,一举一动间流露出强烈的数字化浪潮追赶决心。

11.11数据可视化大屏设计揭秘

2020-11-27
阅读 4 分钟
4.8k
万众期待的京东11.11全球热爱季落下帷幕,巅峰狂欢中,多少人的购物车在这一天成为了GDP野马,创造的商业价值年年翻新,节节拔高,这背后的数据和流量,让消费者和企业更加直观、明确地捕捉到最新的消费风向,而每年同期公开展示的系列数据大屏正是这其中重要的一环。

京东集团技术委员会主席周伯文:推进产业数智化发展需要技术和生态两把“桨”

2020-11-26
阅读 3 分钟
3.5k
11月25日,主题为“数智互联•共塑未来”的JDDiscovery-2020京东全球科技探索者大会在京举行。作为京东每年一度的全球科技大会,JDD是京东面向行业、合作伙伴和公众的最高级别科技盛事。在本次大会的主论坛上,京东集团技术委员会主席、京东智联云总裁、IEEE Fellow 周伯文博士发表了题为《数智互联 共塑未来》的演讲。

京东智能客服品牌焕新:“言犀”亮相2020京东JDD大会

2020-11-26
阅读 2 分钟
3.5k
11月25日,JDDiscovery-2020京东全球科技探索者大会上,京东智能客服品牌名称“言犀”正式发布。这款由京东智联云自主研发的智能情感客服系统,以交互为内核、科技为触手,打造出高情商、个性化、全链路的端到端智能客服解决方案,为客户实现“心有灵犀”般的客服体验。

“开源软件供应链点亮计划 - 暑期 2020”公布结果 基于 ChubaoFS 开发的项目获得最佳质量奖

2020-11-09
阅读 2 分钟
1.7k
“暑期2020”是由中科院软件所与 openEuler 社区共同举办、中科院软件研究所南京软件技术研究院承办的一项面向高校学生的暑期活动,旨在鼓励高校在校学生积极参与开源软件的开发维护,促进国内优秀开源软件社区的蓬勃发展。

大数据工程师专项认证来了!从入门到精通,获得求职“敲门砖”

2020-11-04
阅读 2 分钟
1.9k
随着移动网络、云计算、物联网等新兴技术迅猛发展,全球数据呈爆炸式增长,影响深远的大数据时代已然开启大幕,在不知不觉中改变着人们的生活和思维方式,然而大数据人才在世界范围内仍处于紧缺状态。目前各类统计报告中,对于未来国内大数据人才缺口数字预估将达上千万。

京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

2020-10-28
阅读 4 分钟
2.3k
近日,受到新冠疫情的影响,原计划于2020年10月25日至10月29日期间,在中国上海+线上同步举行的国际语音顶级会议Interspeech 2020最终改为线上举行。京东人工智能研究院有4篇论文脱颖而出,成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。同时,京东智联云作为...