Spark快速大数据分析PDF下载读书分享推荐

7 月 6 日
阅读 1 分钟
259
《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
封面图

最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享

6 月 27 日
阅读 1 分钟
191
《谁说菜鸟不会数据分析(SPSS篇)》继续采用职场三人行的方式来构建内容,细致梳理了准专业数据分析的常见问题,并且挑选出企业实践中最容易碰到的案例,以最轻松直白的方式来讲好数据分析的故事。《谁说菜鸟不会数据分析(SPSS篇)》从解决工作中的实际问题出发,从统计描述、统计推断到探索性分析,总结并提炼工作中...
封面图

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

6 月 20 日
阅读 5 分钟
642
在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。
封面图

Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?

6 月 19 日
阅读 4 分钟
1k
Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例,该查询用于统计满足特定条件的文档数量,并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率,然后扩展介绍ES的一些基础知识。
封面图

ClickHouse(24)ClickHouse集成mongodb表引擎详细解析

5 月 31 日
阅读 2 分钟
562
MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。
封面图

ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

5 月 30 日
阅读 2 分钟
504
MySQL表引擎MySQL引擎可以对存在远程MySQL服务器上的数据执行SELECT查询。调用格式: {代码...} 调用参数host:port — MySQL 服务器地址。database — 数据库的名称。table — 表名称。user — 数据库用户。password — 用户密码。replace_query — 将 INSERT INTO 查询是否替换为 REPLACE INTO 的标志。如果 replace_query=1...
封面图

ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

5 月 25 日
阅读 8 分钟
587
这个引擎提供了与Apache Hadoop生态系统的集成,允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。
封面图

ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

5 月 20 日
阅读 6 分钟
700
Kafka表集成引擎此引擎与Apache Kafka结合使用。Kafka 特性:发布或者订阅数据流。容错存储机制。处理流数据。老版Kafka集成表引擎参数格式: {代码...} 新版Kafka集成表引擎参数格式: {代码...} 必要参数:kafka_broker_list – 以逗号分隔的 brokers 列表 (localhost:9092)。kafka_topic_list – topic 列表 (my_topic)...
封面图

ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

4 月 11 日
阅读 4 分钟
218
PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询.
封面图

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

4 月 4 日
阅读 11 分钟
213
Hive集成表引擎Hive引擎允许对HDFS Hive表执行 SELECT 查询。目前它支持如下输入格式:-文本:只支持简单的标量列类型,除了 BinaryORC:支持简单的标量列类型,除了char; 只支持 array 这样的复杂类型Parquet:支持所有简单标量列类型;只支持 array 这样的复杂类型创建表 {代码...} 表的结构可以与原来的Hive表结构有所不同...
封面图

ClickHouse(18)ClickHouse集成ODBC表引擎详细解析

3 月 31 日
阅读 3 分钟
377
为了安全地实现 ODBC 连接,ClickHouse 使用了一个独立程序 clickhouse-odbc-bridge. 如果ODBC驱动程序是直接从 clickhouse-server中加载的,那么驱动问题可能会导致ClickHouse服务崩溃。 当有需要时,ClickHouse会自动启动 clickhouse-odbc-bridge。 ODBC桥梁程序与clickhouse-server来自相同的安装包.
封面图

ClickHouse(17)ClickHouse集成JDBC表引擎详细解析

3 月 25 日
阅读 4 分钟
376
JDBC允许CH通过JDBC连接到外部数据库。要实现JDBC连接,CH需要使用以后台进程运行的程序 clickhouse-jdbc-bridge。该引擎支持Nullable数据类型。建表 {代码...} 引擎参数datasource_uri — 外部DBMS的URI或名字.URI格式: jdbc:<driver_name>://<host_name>:<port>/?user=<username>&password...
封面图

ClickHouse(16)ClickHouse日志表引擎Log详细解析

3 月 21 日
阅读 4 分钟
341
日志引擎系列这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。这系列的引擎有:StripeLogLogTinyLog共同属性引擎:数据存储在磁盘上。写入时将数据追加在文件末尾。不支持突变操作,也就是更新。不支持索引。 {代码...} 非原子地写入数据。 {代码...} 差异Log 和 StripeLog 引擎支持:并发访问数...
封面图

ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析

3 月 20 日
阅读 4 分钟
261
GraphiteMergeTree该引擎用来对Graphite数据(图数据)进行瘦身及汇总。对于想使用ClickHouse来存储Graphite数据的开发者来说可能有用。
封面图

ClickHouse(14)MergeTree表引擎之VersionedCollapsingMergeTree

3 月 11 日
阅读 5 分钟
146
VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTree用于相同的目的折叠树但使用不同的折叠算法,允许以多个线程的任何顺序插入数据。特别是,Version列有助于正确折叠行,即使它们以错误的顺序插入。相比之下,CollapsingMergeTree只允许严格连...
封面图

ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree解析

3 月 10 日
阅读 5 分钟
283
该引擎继承于MergeTree,并在数据块合并算法中添加了折叠行的逻辑。CollapsingMergeTree会异步的删除(折叠)这些除了特定列Sign有1和-1的值以外,其余所有字段的值都相等的成对的行。没有成对的行会被保留。因此,该引擎可以显著的降低存储量并提高SELECT查询效率。简单来说就是,clickhouse会自动的合并有效和无效的数...
封面图

ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree解析

1 月 28 日
阅读 4 分钟
437
AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑。ClickHouse会将一个数据片段内所有具有相同主键(准确的说是排序键)的行替换成一行,这一行会存储一系列聚合函数的状态。
封面图

ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析

1 月 2 日
阅读 3 分钟
438
SummingMergeTree引擎继承自MergeTree。区别在于,当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。如果主键的组合方式使得单个键值对应于大量的行,则可以显著的减少存储空间并加快数据查询的速度。
封面图

ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析

2023-12-23
阅读 2 分钟
374
MergeTree拥有主键,但是它的主键却没有唯一键的约束。这意味着即便多行数据的主键相同,它们还是能够被正常写入。在某些使用场合,用户并不希望数据表中含有重复的数据。ReplacingMergeTree就是在这种背景下为了数据去重而设计的,它能够在合并分区时删除重复的数据。但是ReplacingMergeTree并不一定保证不会出现重复的...
封面图

ClickHouse(09)ClickHouse合并树MergeTree家族表引擎之MergeTree详细解析

2023-12-04
阅读 12 分钟
561
Clickhouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列(MergeTree)中的其他引擎。MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。
封面图

ClickHouse(08)ClickHouse表引擎概况

2023-10-10
阅读 3 分钟
359
MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。

ClickHouse(07)ClickHouse数据库引擎解析

2023-09-27
阅读 5 分钟
743
这里会介绍ClickHouse几种数据库引擎,已经对应的特点和应用的场景。数据库引擎允许您处理数据表。默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。

ClickHouse(06)ClickHouse建表语句DDL详细解析

2023-09-17
阅读 6 分钟
559
末尾的ENGINE参数,它被用于指定数据表的引擎。表引擎决定了数据表的特性,也决定了数据将会被如何存储及加载。例如示例中使用的Memory表引擎,是ClickHouse最简单的表引擎,数据只会被保存在内存中,在服务重启时数据会丢失。

ClickHouse(05)ClickHouse数据类型详解

2023-09-16
阅读 5 分钟
541
ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使ClickHouse的数据表达能力更加丰富立体。

ClickHouse(04)如何搭建ClickHouse集群

2023-09-15
阅读 4 分钟
617
ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,ClickHouse(03)ClickHouse怎么安装和部署。

ClickHouse(03)ClickHouse怎么安装和部署

2023-09-14
阅读 6 分钟
807
[TOC]本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。简单来说,ClickHouse的搭建流程如下:环境检查,环境依赖安装在对应的服务上下载安装Click House配置config.xml和user.xml,如果搭建Click House集群,还要配置Host文件和FQDN:(Fully Qualified D...

ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

2023-09-13
阅读 5 分钟
446
[TOC]ClickHouse核心架构设计是怎么样的?ClickHouse核心架构模块分为两个部分:ClickHouse执行过程架构和ClickHouse数据存储架构,下面分别详细介绍。

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

2023-09-12
阅读 3 分钟
509
ClickHouse是什么数据库?ClickHouse速度有多快?应用场景是怎么样的?ClickHouse是关系型数据库吗?ClickHouse目前是很火爆的一款面向OLAP的数据,可以提供秒级的大数据查询。

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

2023-07-01
阅读 1 分钟
1.1k
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。

数据仓库(12)数据治理之数仓数据管理实践心得

2023-06-21
阅读 2 分钟
405
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。