数据仓库学习与分享 - SegmentFault 思否

Spark快速大数据分析PDF下载读书分享推荐

2024-07-06

阅读 1 分钟

550

《Spark 快速大数据分析》是一本为 Spark 初学者准备的书，它没有过多深入实现细节，而是更多关注上层用户的具体用法。不过，本书绝不仅仅限于 Spark 的用法，它对 Spark 的核心概念和基本原理也有较为全面的介绍，让读者能够知其然且知其所以然。

最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享

张飞的猪

2024-06-27

阅读 1 分钟

503

《谁说菜鸟不会数据分析（SPSS篇）》继续采用职场三人行的方式来构建内容，细致梳理了准专业数据分析的常见问题，并且挑选出企业实践中最容易碰到的案例，以最轻松直白的方式来讲好数据分析的故事。《谁说菜鸟不会数据分析（SPSS篇）》从解决工作中的实际问题出发，从统计描述、统计推断到探索性分析，总结并提炼工作中...

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

张飞的猪

2024-06-20

阅读 5 分钟

1.1k

在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中，应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改，并最好在开发环境中评估调优更改的影响，然后再在生产环境中使用。

Elasticsearch如何聚合查询多个统计值，如何嵌套聚合？并相互引用，统计索引中某一个字段的空值率？语法是怎么样的？

张飞的猪

2024-06-19

阅读 4 分钟

1.6k

Elasticsearch聚合查询是一种强大的工具，允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例，该查询用于统计满足特定条件的文档数量，并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率，然后扩展介绍ES的一些基础知识。

ClickHouse(24)ClickHouse集成mongodb表引擎详细解析

张飞的猪

2024-05-31

阅读 2 分钟

805

MongoDB 引擎是只读表引擎，允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。

ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

张飞的猪

2024-05-30

阅读 2 分钟

758

MySQL表引擎MySQL引擎可以对存在远程MySQL服务器上的数据执行SELECT查询。调用格式： {代码...} 调用参数host:port — MySQL 服务器地址。database — 数据库的名称。table — 表名称。user — 数据库用户。password — 用户密码。replace_query — 将 INSERT INTO 查询是否替换为 REPLACE INTO 的标志。如果 replace_query=1...

ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

张飞的猪

2024-05-25

阅读 8 分钟

944

这个引擎提供了与Apache Hadoop生态系统的集成，允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。

ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

张飞的猪

2024-05-20

阅读 6 分钟

1.1k

Kafka表集成引擎此引擎与Apache Kafka结合使用。Kafka 特性：发布或者订阅数据流。容错存储机制。处理流数据。老版Kafka集成表引擎参数格式： {代码...} 新版Kafka集成表引擎参数格式： {代码...} 必要参数：kafka_broker_list – 以逗号分隔的 brokers 列表 (localhost:9092)。kafka_topic_list – topic 列表 (my_topic)...

ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

张飞的猪

2024-04-11

阅读 4 分钟

497

PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询.

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

张飞的猪

2024-04-04

阅读 11 分钟

519

Hive集成表引擎Hive引擎允许对HDFS Hive表执行 SELECT 查询。目前它支持如下输入格式:-文本:只支持简单的标量列类型，除了 BinaryORC:支持简单的标量列类型，除了char; 只支持 array 这样的复杂类型Parquet:支持所有简单标量列类型;只支持 array 这样的复杂类型创建表 {代码...} 表的结构可以与原来的Hive表结构有所不同...

ClickHouse(18)ClickHouse集成ODBC表引擎详细解析

张飞的猪

2024-03-31

阅读 3 分钟

746

为了安全地实现 ODBC 连接，ClickHouse 使用了一个独立程序 clickhouse-odbc-bridge. 如果ODBC驱动程序是直接从 clickhouse-server中加载的，那么驱动问题可能会导致ClickHouse服务崩溃。当有需要时，ClickHouse会自动启动 clickhouse-odbc-bridge。 ODBC桥梁程序与clickhouse-server来自相同的安装包.

ClickHouse(17)ClickHouse集成JDBC表引擎详细解析

张飞的猪

2024-03-25

阅读 4 分钟

712

JDBC允许CH通过JDBC连接到外部数据库。要实现JDBC连接，CH需要使用以后台进程运行的程序 clickhouse-jdbc-bridge。该引擎支持Nullable数据类型。建表 {代码...} 引擎参数datasource_uri — 外部DBMS的URI或名字.URI格式: jdbc:<driver_name>://<host_name>:<port>/?user=<username>&password...

ClickHouse(16)ClickHouse日志表引擎Log详细解析

张飞的猪

2024-03-21

阅读 4 分钟

631

日志引擎系列这些引擎是为了需要写入许多小数据量（少于一百万行）的表的场景而开发的。这系列的引擎有：StripeLogLogTinyLog共同属性引擎：数据存储在磁盘上。写入时将数据追加在文件末尾。不支持突变操作,也就是更新。不支持索引。 {代码...} 非原子地写入数据。 {代码...} 差异Log 和 StripeLog 引擎支持：并发访问数...

ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析

张飞的猪

2024-03-20

阅读 4 分钟

464

GraphiteMergeTree该引擎用来对Graphite数据(图数据)进行瘦身及汇总。对于想使用ClickHouse来存储Graphite数据的开发者来说可能有用。

ClickHouse(14)MergeTree表引擎之VersionedCollapsingMergeTree

张飞的猪

2024-03-11

阅读 5 分钟

336

VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTree用于相同的目的折叠树但使用不同的折叠算法，允许以多个线程的任何顺序插入数据。特别是，Version列有助于正确折叠行，即使它们以错误的顺序插入。相比之下,CollapsingMergeTree只允许严格连...

ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree解析

张飞的猪

2024-03-10

阅读 5 分钟

575

该引擎继承于MergeTree，并在数据块合并算法中添加了折叠行的逻辑。CollapsingMergeTree会异步的删除（折叠）这些除了特定列Sign有1和-1的值以外，其余所有字段的值都相等的成对的行。没有成对的行会被保留。因此，该引擎可以显著的降低存储量并提高SELECT查询效率。简单来说就是，clickhouse会自动的合并有效和无效的数...

ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree解析

张飞的猪

2024-01-28

阅读 4 分钟

850

AggregatingMergeTree引擎继承自 MergeTree，并改变了数据片段的合并逻辑。ClickHouse会将一个数据片段内所有具有相同主键（准确的说是排序键）的行替换成一行，这一行会存储一系列聚合函数的状态。

ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析

张飞的猪

2024-01-02

阅读 3 分钟

692

SummingMergeTree引擎继承自MergeTree。区别在于，当合并SummingMergeTree表的数据片段时，ClickHouse会把所有具有相同主键的行合并为一行，该行包含了被合并的行中具有数值数据类型的列的汇总值。如果主键的组合方式使得单个键值对应于大量的行，则可以显著的减少存储空间并加快数据查询的速度。

ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析

张飞的猪

2023-12-23

阅读 2 分钟

665

MergeTree拥有主键，但是它的主键却没有唯一键的约束。这意味着即便多行数据的主键相同，它们还是能够被正常写入。在某些使用场合，用户并不希望数据表中含有重复的数据。ReplacingMergeTree就是在这种背景下为了数据去重而设计的，它能够在合并分区时删除重复的数据。但是ReplacingMergeTree并不一定保证不会出现重复的...

ClickHouse(09)ClickHouse合并树MergeTree家族表引擎之MergeTree详细解析

张飞的猪

2023-12-04

阅读 12 分钟

931

Clickhouse中最强大的表引擎当属MergeTree（合并树）引擎及该系列（MergeTree）中的其他引擎。MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入，数据片段在后台按照一定的规则进行合并。相比在插入时不断修改（重写）已存储的数据，这种策略会高效很多。

ClickHouse(08)ClickHouse表引擎概况

张飞的猪

2023-10-10

阅读 3 分钟

647

MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入，数据片段在后台按照一定的规则进行合并。相比在插入时不断修改（重写）已存储的数据，这种策略会高效很多。

ClickHouse(07)ClickHouse数据库引擎解析

张飞的猪

2023-09-27

阅读 5 分钟

这里会介绍ClickHouse几种数据库引擎，已经对应的特点和应用的场景。数据库引擎允许您处理数据表。默认情况下，ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。

ClickHouse(06)ClickHouse建表语句DDL详细解析

张飞的猪

2023-09-17

阅读 6 分钟

839

末尾的ENGINE参数，它被用于指定数据表的引擎。表引擎决定了数据表的特性，也决定了数据将会被如何存储及加载。例如示例中使用的Memory表引擎，是ClickHouse最简单的表引擎，数据只会被保存在内存中，在服务重启时数据会丢失。

ClickHouse(05)ClickHouse数据类型详解

张飞的猪

2023-09-16

阅读 5 分钟

825

ClickHouse属于分析型数据库，ClickHouse提供了许多数据类型，它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力，而另外两种类型则使ClickHouse的数据表达能力更加丰富立体。

ClickHouse(04)如何搭建ClickHouse集群

张飞的猪

2023-09-15

阅读 4 分钟

872

ClickHouse集群的搭建和部署和单机的部署是类似的，主要在于配置的不一致，如果需要了解ClickHouse单机的安装设部署，可以看看这篇文章,ClickHouse(03)ClickHouse怎么安装和部署。

ClickHouse(03)ClickHouse怎么安装和部署

张飞的猪

2023-09-14

阅读 6 分钟

1.2k

[TOC]本文会介绍如何安装和部署ClickHouse，官方推荐的几种安装模式，以及安装之后如何启动，ClickHouse集群如何配置等。简单来说，ClickHouse的搭建流程如下：环境检查，环境依赖安装在对应的服务上下载安装Click House配置config.xml和user.xml，如果搭建Click House集群，还要配置Host文件和FQDN：(Fully Qualified D...