小打卡基于大数据产品实现离线数仓架构

2020-03-13
阅读 3 分钟
小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。 在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。 现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

ODPS2.0重装上阵,优化提升SQL语言表达能力

2020-03-12
阅读 9 分钟
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

PyODPS DataFrame 处理笛卡尔积的几种方式

2020-03-12
阅读 6 分钟
PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。

配置MaxCompute任务消费监控告警,避免资源过度消费

2020-03-12
阅读 1 分钟
MaxCompute 按量计费资源为弹性伸缩资源,对于计算任务,按任务需求提供所需资源,对资源使用无限制,同时MaxCompute按量计费的账单为天账单,即当天消费需要第二天才出账,因此,有必要对计算任务的消费进行监控以免超预期消费而不可知。 本文将介绍如何通过云监控配置MaxCompute按量计费计算任务消费监控告警。 背景知...

天弘基金交易数据清算从8小时缩至1.5小时 解决余额宝算力难题

2020-03-12
阅读 2 分钟
天弘基金作为国内总规模最大的公募基金,阿里云MaxCompute为我们构建了企业级一站式大数据解决方案。MaxCompute对于海量数据的存储、运维、计算能力强大且安全稳定,MaxCompute服务将原本需要清算8小时的用户交易数据缩短至清算1个半小时,同时减少了本地服务器部署压力,在显著提升我们工作效率的同时减少了大量开发成...

混合云模式助力斗鱼搭建混搭大数据架构

2020-03-12
阅读 3 分钟
2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云...

发光的二次元克拉克拉 满足年轻用户个性化、碎片化的文娱需求

2020-03-12
阅读 3 分钟
克拉克拉(KilaKila)是国内专注二次元、主打年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频配音、对话小说等功能,满足当下年轻用户个性化、碎片化的文娱需求。随着业务规模增长,海量数据存储与计算的瓶颈也日益突出,由于单台服务器的处理能力有限,海量数据的分析需要分布式计算模型。分布式的...

如何跨项目工作空间访问MaxCompute资源和函数?

2020-03-11
阅读 2 分钟
1、背景介绍 同一个主账号下面的两个工作空间,工作空间名称分别为 A工作空间名称:wei_wwww A工作空间子账号:mc_oss B工作空间名称:wei_mc B工作空间子账号:bigdata_wei 现在B工作空间子账号bigdata_wei需要访问A工作空间子账号mc_oss创建的UDF函数。执行查询语句报错信息如下:

基于MaxCompute InformationSchema进行血缘关系分析

2020-03-11
阅读 4 分钟
一、需求场景分析 在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的血缘关系,从而分析出数据的上下游依赖关系。 本文将介绍如何去根据MaxCompute InformationSchema中作业ID的...

Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写

2020-03-11
阅读 8 分钟
一、背景介绍: MaxCompute 2.0版本升级后,Java UDF支持的数据类型从原来的BIGINT、STRING、DOUBLE、BOOLEAN扩展了更多基本的数据类型,同时还扩展支持了ARRAY、MAP、STRUCT等复杂类型,以及Writable参数。Java UDF使用复杂数据类型的方法,STRUCT对应com.aliyun.odps.data.Struct。com.aliyun.odps.data.Struct从反射...

基于MaxCompute 衣二三帮助客户找到合适自己的衣服

2020-03-11
阅读 4 分钟
摘要:本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。 衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助力衣二三构...

塑云科技基于 KafKa+OTS+MaxCompute 完成物联网系统技术重构

2020-03-11
阅读 3 分钟
背景:创业团队,专注于氢能燃料电池生态链的运营支撑,当前主要的业务组成为新能源车整车实时运营监控分析,加氢站实时运营监控分析,车辆安全运营支撑。

唱吧基于 MaxCompute 弥补自建体系的不足

2020-03-11
阅读 2 分钟
使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。初期这套基于开源组件的体系有力支撑了数据统计、业务报表、风控等业务需求。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力...

如何在MaxCompute中利用bitmap进行数据处理?

2020-03-10
阅读 5 分钟
很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。 本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。

MaxCompute中如何使用OSS外部表读取JSON数据?

2020-03-10
阅读 2 分钟
{"id":5644228109524316032,"sourceType":1} {"id":-736866360508848202,"sourceType":3}

MaxCompute中如何使用OSS外部表读取JSON数据?

2020-03-10
阅读 2 分钟
{"id":5644228109524316032,"sourceType":1} {"id":-736866360508848202,"sourceType":3}

美柚上云 致力成为最懂女人的互联网企业

2020-03-10
阅读 2 分钟
美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战:

大数据上云第一课:MaxCompute授权和外表操作躲坑指南

2020-03-10
阅读 12 分钟
一、子账号创建、AK信息绑定 如果您是第一次使用子账号登录数加平台和使用DataWorks,需要确认以下信息: • 该子账号所属主账号的企业别名。 • 该子账号的用户名和密码。 • 该子账号的AccessKey ID和AccessKey Secret。 • 确认主账号已经允许子账号启用控制台登录。 • 确认主账号已经允许子账号自主管理AccessKey。 1、...

中邮智递通过数加和datav将系统和服务迁移到大数据平台

2020-03-10
阅读 2 分钟
云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 概述 中邮智递数据平台发展到现在经历了四个阶段: (1) 直接在业务生产系统开发生成报表,提供业务部门查询 (2) 采用kettle等工具抽取各业务系统数据并处理生成报表 (3) 使用hive构建离线...

聚焦数字化智慧安防的新型社区

2020-03-10
阅读 2 分钟
现如今,智慧城市建设已成为全球城市发展的必然趋势,全球仅亚太地区就已规划建立1000个智慧城市标杆,而中国作为亚太经济体中的核心力量,其中500个标杆项目将在中国落地,中国必将成为智慧城市发展的风向标,作为智慧城市的核心部分,智慧平安社区的建设是我国向智慧城市迈进必经的探索之路。上世纪60年代初的“枫桥经...

MaxCompute元数据分析冷热门表,充分优化数据模型

2020-03-09
阅读 3 分钟
一、需求场景分析 在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型。 一个MaxCompute项目中经常使用的表简称为热门表,使用次数较少或者很长时间不...

MaxCompute客户端在windows命令行下查询中文乱码怎么办?

2020-03-09
阅读 2 分钟
MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。 但有用户会碰到在Windows下的命令行中执行odpscmd后,查询包含中文字符的表数据时出现乱码的情况,本文将给出问题分析和解决方法...

如何构建一个可持续的企业级数据赋能体系?

2020-03-09
阅读 6 分钟
简介: 对于所有企业来说,数据决定了基于算力、算法等能做出哪些场景和应用。在本次首席技术官大数据专享会上,友盟+首席产品官林鸣晖围绕业务数据化,数据资产化、资产应用化、应用价值化构建属于企业的可闭环、可沉淀、可持续的数据赋能体系进行分享,基于智能数据采集(U-SDC),用户数据平台(U-CDP),数据开放平...

全球加速产品 方便更多学生获得申请名校的机会

2020-03-09
阅读 2 分钟
青岛XX教育科技股份有限公司是英国爱德思考试局(Edexcel)授权的考试和培训机构。全国包括青岛在内的17个城市设立了中心,已经培养出85名学生考入牛津、剑桥、美国加州理工大学、哥伦比亚大学、宾夕法尼亚大学;700多名学生考入帝国理工大学和伦敦大学学院(世界排名前10);3300多名学生考入世界排名前100名校。XX教育...

DataWorks 如何撑起阿里99%的数据开发?

2020-03-09
阅读 11 分钟
阿里妹导读: DataWorks是阿里巴巴自主研发,支撑阿里巴巴经济体99%数据业务建设和治理,每天数万名数据开发和算法开发工程师在使用。从2010年起步到目前的版本,经历了多次技术变革和架构升级,也遗留了大量的历史包袱。技术的创新和业务的发展,相辅相成但也互为掣肘。存在需求接入慢,代码牵一发而动全身,环境复杂等...

阿里云2020上云采购季,你适合买什么云产品?

2020-03-09
阅读 2 分钟
线下IDC机房成本高? 自建数据库卡、慢,延迟高? 被黑客攻击了怎么办? 今年IT预算没多少? 不知道怎么过等保2.0? 你遇到了哪些问题?来阿里云2020上云采购季!主会场请戳:[链接]_content=g_1000106729

探索中国广电“智慧城市”未来转型路径

2020-03-09
阅读 3 分钟
东方明珠是上海的传媒旗舰,在文娱领域拓展的同时,也被广电总局赋予重任,早几年已经开始依托广电频谱开展下一代宽带无线网络试点,当时的业务主要侧重政府事业单位服务,基于业务的需求变化,东方明珠在宽带无线网络的基础上打造了一张全新的物联网网络及平台系统,成功实现了智慧城市商业模式和物联网行业应用的突破...

“数据驱动、智能引领”,打造未来智能小镇“样板间”

2020-03-09
阅读 3 分钟
云栖小镇位于浙江杭州西湖区南部,属杭州之江国家旅游度假区核心区块,是浙江省首批创建的十个示范特色产业小镇之一。以云计算、大数据、物联网和智能硬为件产业特点的特色小镇,也是杭州城市大脑的诞生地,一年一度的世界科技领域盛宴“云栖大会”,正是在这里举办。

阿里风控大脑如何应用大数据来构建风控体系?

2020-03-06
阅读 7 分钟
简介: 2019年双11阿里风控保护了约388亿消费者的操作行为,同时挡住了约22亿次恶意攻击。在首席技术官大数据专享会,阿里巴巴新零售技术事业群高级数据技术专家丁明峰为大家介绍了阿里风控大脑关于大数据应用的探索与实践,即风控领域如何应用大数据来构建风控体系?并详细介绍风控架构以及链路。

基于阿里云 MaxCompute 构建企业云数据仓库CDW

2020-03-06
阅读 10 分钟
大家下午好,我是云郎,之前在甲骨文做企业架构师8年,目前是MaxCompute产品经理。 在这么长的客户工作过程中,作为产品PD,一定是跟客户在一起的。我经常被一些问题挑战:云郎,我们现在要建数据仓库,我该怎么去规划?云郎,我现在这边是大数据的建设团队,好像数据团队不怎么理我,什么情况?云郎,我们这边现在建了一...