第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦!

2022-08-16
阅读 2 分钟
1k
50 年前,数据库管理系统、关系型数据库诞生,数据处理效率大大提升。数据库软件开始被应用于业务数据处理。20 年前,单机存储能力遭遇瓶颈,分布式存储计算架构成为主流。Apache Hadoop 成为大数据技术的代名词。
封面图

被热捧的云原生,和大数据怎么结合才能驱动商业?

2021-05-24
阅读 8 分钟
1.4k
导语 | 近几年炙手可热的云原生首先由Matt Stine提出并延续使用至今,但其并没有标准的、严格的定义,比较公认的四要素是:DevOps、微服务、持续交付、以及容器,更多的则是偏向应用系统的一种体系架构和方法论。那么在云上如何改进大数据基础架构让其符合云原生标准,同时给企业客户带来真真切切的数据分析成本降低和性...

数据分析引擎黑马 ClickHouse 最新技术的实践与应用

2021-05-24
阅读 8 分钟
3.7k
​导语 | ClickHouse 在近几年是大数据分析引擎界的一匹黑马,从默默无闻到一路起飞,在 DB engine Rank 上进入前50名,成为全球数据引擎界耀眼的一颗明星。在全球范围内,ClickHouse 单表查询比其他引擎要快数倍以上,在过去的4年以来未曾有对手。ClickHouse 为什么会这么快?在实际使用当中如何应用这样一个引擎?还有...

大幅降低存储成本,Elasticsearch可搜索快照是如何办到的?

2020-12-08
阅读 5 分钟
1.4k
导语 | Elasticsearch 7.10 版本最近发布,该版本有一个重磅特性:Searchable snapshots (可搜索快照功能),可以大幅度地降低存储成本。那么 Searchable snapshots 的使用方式和实现效果是怎样的呢,下面就让我们来一探究竟吧!本文作者:高斌龙,腾讯云大数据研发工程师。

鹰眼:海量级分布式日志系统上云的架构和实践

2020-08-31
阅读 3 分钟
1.8k
​导语 | 鹰眼是由腾讯PCG技术运营部负责的海量级分布式实时监控和日志分析系统,为响应公司战略要求,将原先的业务迁移上云,最终产生了可喜的变化。本文将介绍分布式日志系统(鹰眼)的整体上云方案,希望与大家一同交流。

腾讯云大数据:神盾首创非对称联邦学习,深度保障数据隐私

2020-08-28
阅读 7 分钟
2.2k
导语:在过去的几年中,我们见证了大数据及人工智能技术的飞速发展,许多机构却依旧苦于数据数量少、质量低等难题而无法将前沿理论商业化落地。助力像石油般宝贵的数据突破隐私保护的条框限制并实现其价值的流通,对相关产业的发展起着至关重要的作用。在上一篇文章中,我们简要介绍了腾讯“神盾-联邦计算”平台的诞生背景...

HDFS+ClickHouse+Spark:从0到1实现一款轻量级大数据分析系统

2020-07-14
阅读 4 分钟
2.3k
在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等。这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数据分析模式难以满足。本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题。文章作者:数据熊,腾讯云大数据...

图计算黑科技:打开中文词嵌入训练实践新模式

2020-07-13
阅读 9 分钟
3k
在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文将尝试从图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。文章...

腾讯“神盾-联邦计算”平台带你翻越数据合作的重重大山

2020-07-08
阅读 7 分钟
3.1k
大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下。为了满足企业间数据安全共享、释放数据价值,助力业务创新,腾讯“神盾-联邦计算”平台应运而生!

腾讯云EMR大数据实时OLAP分析案例解析

2020-06-03
阅读 6 分钟
4.4k
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。

节约60%成本!虎牙直播云端大数据是怎么做到的?

2020-05-13
阅读 4 分钟
1.7k
虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。

腾讯会议核心数据库TDSQL,如何做到快速无损在线扩容?

2020-05-13
阅读 6 分钟
3.3k
自去年12月底发布后,腾讯会议40天更新14个版本,8天紧急扩容超过10万台云主机,投入的计算资源超100万核。疫情复工期间,每周都有数万家企业和政府相关机构使用腾讯会议复工复产,通过腾讯会议开拓了云签约、云招标、云面试、云培训等云上协同场景。

邀您参加 | BigData & Alluxio 交流会-成都站

2019-04-19
阅读 2 分钟
4.3k
本期技术沙龙将会聚焦在大数据、存储、数据库以及Alluxio应用实践等领域,邀请腾讯技术专家和业界技术专家现场分享关于Alluxio系统的基本原理、大数据系统架构、数据库应用运维、AI计算机视觉技术及落地实践等主题,带来丰富的实战内容和经验交流。

大数据与 AI 生态中的开源技术总结

2019-02-21
阅读 5 分钟
3.8k
在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展。本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析当下热门的开源产品和技术,来梳理未来的行业生态以及技术趋势。

新的一年,来看看大数据与AI的未来展望

2019-01-18
阅读 5 分钟
5.7k
在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展。本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析当下热门的开源产品和技术,来梳理未来的行业生态以及技术趋势。

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

2019-01-08
阅读 3 分钟
2.7k
做为大数据生态系统中最重要的底层存储文件系统HDFS,为了保证系统的可靠性,HDFS通过多副本的冗余来防止数据的丢失。通常,HDFS中每一份数据都设置两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显:传统的3份复制相当于增加了200%的存储开销,给...

火眼金睛算法,教你海量短文本场景下去重

2018-12-03
阅读 7 分钟
2.6k
在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担,更糟糕的是降低了文本内容的质量。因此需要一种准确而高效率的文本去重算法。而最朴素的做法就是将所有文本进行两两比较,简单易理解,最符合人...

机器学习-数据清洗

2018-11-23
阅读 3 分钟
3.3k
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人绝对无法避开这个环节,其根本原因是因为我们从各种渠道拿到的数据可能会出现: 1、不合理的数据,你比如,样本中有些人的年龄超过了120岁,楼层...

重磅邀请函来了!首届“腾讯云+社区开发者大会”免费报名!

2018-11-21
阅读 3 分钟
6.4k
2018年12月15日,首届“腾讯云+社区开发者大会”即将在北京隆重举行,腾讯云邀请广大开发者共同探讨云端新技术、新能力。届时,腾讯云将邀请超过40位行业内的技术专家,超过1000名开发者参与本次盛会,分享行业经验,沉淀云端技术。

一文学会目前最火热的大数据技术

2018-10-23
阅读 11 分钟
2.9k
Elasticsearch是当前主流的分布式大数据存储和搜索引擎,可以为用户提供强大的全文本检索能力,广泛应用于日志检索,全站搜索等领域。Logstash作为Elasicsearch常用的实时数据采集引擎,可以采集来自不同数据源的数据,并对数据进行处理后输出到多种输出源,是Elastic Stack 的重要组成部分。本文从Logstash的工作原理,...

【DataMagic】如何在万亿级别规模的数据量上使用Spark

2018-10-22
阅读 5 分钟
2.6k
Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台是如何使用好Spark的。

全球最大最强出行业务背后的数据库系统大揭秘

2018-10-22
阅读 2 分钟
4.1k
摩拜单车是全球最大智能共享单车运营平台和移动物联网平台,其从成立到全球最大只用了不到3年的时间,每天产生超过30TB骑行数据,日均订单量超过3000万。而海量数据背后,是什么样的数据库系统支撑其称霸中国、新加坡、英国、意大利、日本、泰国、马来西亚、美国、韩国等 9 个国家超过 180 个城市,运营着超过 700 万辆...

请读下面的这句绕口令:ResourceManager中的Resource Estimator框架介绍与算法剖析

2018-10-12
阅读 6 分钟
1.7k
本文首先介绍了Hadoop中的ResourceManager中的estimator service的框架与运行流程,然后对其中用到的资源估算算法进行了原理剖析。

【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

2018-10-10
阅读 2 分钟
3.6k
在现代社会中,随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据,导致了PB级储存的需求加大。

别被官方文档迷惑了!这篇文章帮你详解yarn公平调度

2018-10-08
阅读 15 分钟
3k
FairScheduler是yarn常用的调度器,但是仅仅参考官方文档,有很多参数和概念文档里没有详细说明,但是这些参明显会影响到集群的正常运行。本文的主要目的是通过梳理代码将关键参数的功能理清楚。下面列出官方文档中常用的参数:

腾讯云图,让数据说话

2018-09-28
阅读 3 分钟
4.6k
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云数据库 TencentDB发表于云+社区专栏 一、腾讯云图 数据之美 了解腾讯云图之前,我们先来看看数据可视化? 这是星云图,他表示的是QQ同时在线人数,看到这个图大家脑袋里面想到什么?QQ,蓝钻、绿钻、太阳、月亮、上学的时候跟同学聊天,认识默认...

郭律: 论机器学习平台与人工智能的关系

2018-09-27
阅读 6 分钟
6.3k
本文由腾讯云AI中心发表于云+社区专栏郭律,腾讯高级产品经理,腾讯云AI基础产品中心高级产品经理、解决方案架构师。主导腾讯智能钛TI-ONE(可视化机器学习平台)和TI-S(自动机器学习平台)两个产品的设计工作。从上海交通大学模式识别与智能系统专业博士毕业后,先后就职于IBM、普华永道从事IT架构、咨询方面的工作,...

谭安林:大数据在智能外呼系统的应用

2018-09-27
阅读 7 分钟
5.1k
本文由云加社区技术沙龙发表于云+社区专栏谭安林,腾讯高级工程师,2015年加入腾讯,8年互联网从业经历,从事大数据平台与产品开发相关工作;先后参与广告、金融等领域产品项目,目前负责行为预测解决方案,帮助客户盘活现有客群、挖掘潜在高价值新客。目前我们的产品包括:智能客服、大数据套件、腾讯移动分析、腾讯移...

学会了这项技能,你就能获得任何想要的信息!

2018-08-22
阅读 3 分钟
3.1k
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云实验室发表于云+社区专栏 腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务,教程内容如下,用户可以点击开发者实验室快速上机完成实验。 环境准备 任务时间:5min ~ 10min 前置环境部署 在开始部署前,我们需要做一些前置准备。 yum 更新 {...

相似人群画像算法

2018-07-24
阅读 15 分钟
2.2k
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由week 发表于云+社区专栏 一、数据源 1、相似人群数据存在TDW库中,数据字典说明: {代码...} 字段 类型 含义 uid string 用户标识 sim_uids string 与uid喜好相似的人群,格式为用户编号:相同阅读量,相似用户之间以逗号分隔 sim_num BIGINT 相似人群的...