- 标签
- 大数据
- 标签动态
大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时...[ 百科 ]
最近一份「手机打车调研报告」引起了网友的广泛关注,原因是这份报告的调研结果显示:苹果机主更容易被专车和优享这类更贵车型接单。如果不是苹果手机,则手机越贵,越容易被更贵车型接单。网友纷纷表示:这次真...
Orca项目在DolphinDB之上实现了pandas API,使用户能更高效地分析处理海量数据。在数据存储方面,与pandas相比,Orca具备以下显著优势:
分布式对象存储是key/value的存储模式,以restful访问方式为主,几乎处于扁平化的存储形式,通过地址作为主键,访问、更新的文件对象作为值。文件本身可以分布式分片,但是key/value的访问都是原子性,文件不能追...
在第二集(点击可参阅详情)中,我们将集群由Hadoop2.6.0版本升级到Hadoop3.2.1版本,且启用联邦模式,解决了Hadoop的第二次瓶颈;
由于DolphinDB是一款相对成熟的高性能分布式时序数据库,其底层对一些方法的处理机制已经成型,这就决定了Orca在某些细节方面会与pandas存在差异。为了方便用户更快地了解和掌握Orca,本文按照以下几个模块来系统...
公众号(五分钟学大数据)已推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂!
分布式系统主要包含的内容很多,我就针对两个核心方面做一下解读:分布式应用服务和对象远程调用、数据的分布式存储。先说说分布式应用服务以及对象远程调用的元老之一:
分布式系统主要包含的内容很多,我就针对两个核心方面做一下解读:分布式应用服务和对象远程调用、数据的分布式存储。先说说分布式应用服务以及对象远程调用的元老之一:
本文将详细介绍Orca的安装方法、基本操作,以及Orca相对pandas的差异,用户在使用Orca编程时需要注意的细节,以便用户能充分利用DolphinDB的优势,写出高效的Orca代码。
若进行博客等文本类数据的读写以及专业搜索引擎的连接的解决方案对比,可以肯定的下结论:MongoDB的解决方案中要远远好于MySQL的解决方案。
前面一篇讲到streamin读取kafka数据加工处理后写到kafka数据,大数据开发-Spark-开发Streaming处理数据 && 写入Kafka是针对比如推荐领域,实时标签等场景对于实时处理结果放到mysql也是一种常用方式,假...
Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既...
At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries have a very similar AST. This project aims to provide a single AST to be used...
算法 - 链表操作题目套路 前面这一篇文章主要讲链表操作时候的实操解决方式,本文从本质讲解链表操作的元信息,学完后,再也不怕链表操作题目了。
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算...