SF
滴普程序员部落
滴普程序员部落
注册登录
关注博客
注册登录
主页
关于
RSS
利用jemalloc解决flink的内存溢出问题
滴普科技DEEPEXI
2022-06-21
阅读 12 分钟
5k
遇到一个Linux系统 glibc内存分配导致的OOM问题,根源是内存回收出现问题,导致碎片太多,内存无法回收,系统认为内存不够用了。涉及到以下知识点:1、Linux中典型的64M内存区域问题2、glibc内存分配器ptmalloc2的底层原理3、glibc的内存分配原理(Arean、Chunk、bins等)4、malloc_trim对内存回收的影响
聊聊flink水位线
滴普科技DEEPEXI
2022-06-21
阅读 17 分钟
2.4k
flink中比较重要的是时间和状态,学习flink的过程中对水位线的理解一直模糊,经过一段时间的消化,在此总结总结。本文主要把水位线是什么,怎么来的,有什么用描述清楚。
Flink中基于Operator State 的计算开发方法——《滴普程序员部落》
滴普科技DEEPEXI
2022-03-22
阅读 11 分钟
2.2k
在Flink中根据数据集是否根据Key进行分区,将状态分为Keyed State和Operator State(Non-keyed State)两种类型 ,在之前的文章《Flink中基于KeyedState的计算开发方法》已经详细介绍了Keyed State的概念和用法,本文将继续介绍Operator State。
Flink中基于State的有状态计算开发方法
滴普科技DEEPEXI
2022-03-16
阅读 16 分钟
2k
前言状态在Flink中叫作State,用来保存中间计算结果或者缓存数据。根据是否需要保存中间结果,分为无状态计算和有状态计算。对于流计算而言,事件持续不断地产生,如果每次计算都是相互独立的,不依赖于上下游的事件,则是无状态计算。如果计算需要依赖于之前或者后续的事件,则是有状态计算。
Flink temporal table join研究
滴普科技DEEPEXI
2022-03-07
阅读 29 分钟
3.9k
作者:王东阳前言ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table具有普通table的特性,有具体独特的DDL/DML/QUERY语法,时间是其核心属性。历史意味着时间,意味着快照Snapshot。
Flink、Iceberg和Hive的Catalog比较研究
滴普科技DEEPEXI
2022-02-28
阅读 10 分钟
3.5k
所谓Catalog即数据目录,简单讲,Catalog是企业用于管理数据资产的方式,Catalog借助元数据来管理数据,包括数据收集、组织、访问、发现和治理。可见,Catalog在数据资产管理中处于核心位置。元数据本身内容非常丰富,包括技术元数据、业务元数据和操作元数据,本文仅仅研究大数据计算存储框架本身的技术元数据,比如数...
Flink 流式写入Iceberg实现原理
滴普科技DEEPEXI
2022-01-27
阅读 9 分钟
3.3k
Iceberg作为凌驾于HDFS和S3等存储系统之上的数据组织框架,提供了数据写入、读取、文件管理和元数据管理等基本功能,虽然Iceberg提供了丰富的API接口,但是面向API开发需要使用方比较了解其原理和实现细节,还是显得门槛过高。此外,在面向实时数据读写场景,需要有一个桥接框架来自动完成数据的读写,于是Iceberg和Flin...