SF
大数据技术派
大数据技术派
注册登录
关注博客
注册登录
主页
关于
RSS
flink-cdc同步mysql数据到kafka
大数据技术派
2022-09-14
阅读 4 分钟
1.4k
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅消费。
mysql索引不生效
大数据技术派
2022-09-08
阅读 3 分钟
742
并不是索引越多越好,索引是一种以空间换取时间的方式,所以建立索引是要消耗一定的空间,况且在索引的维护上也会消耗资源。本文首发我的个人博客mysql索引不生效这里有张用户浏览商品表,建表语句: {代码...} 可以看出目前这张表是有3个索引的: 我往这张表里面导入了10万多条记录。mysql不走索引的情况1、like查询以“...
logstash同步mysql数据到elasticsearch
大数据技术派
2022-08-03
阅读 3 分钟
1k
remove_field => ["@version", "@timestamp"]: 默认logstash会添加这两个字段,这里去掉;
Python进程管理神器——Supervisor
大数据技术派
2022-07-25
阅读 3 分钟
692
Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启详细介绍查阅:Supervisor Introduction
Python常用基础语法知识点大全
大数据技术派
2022-07-21
阅读 23 分钟
1.2k
记得我是数学系的,大二时候因为参加数学建模,学习Python爬虫,去图书馆借了一本Python基础书,不厚,因为有matlab和C语言基础,这本书一个星期看完了,学完后感觉Python入门很快,然后要开始学爬虫和矩阵计算,学习一下对应的包就行了,感觉很方便,爱上了这门语言,虽然毕业后做了Java,但是平时工作中也会用一些Pyth...
数仓建模—指标体系
大数据技术派
2022-07-04
阅读 12 分钟
2.1k
数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系一文搞懂ETL和ELT的区别数据湖知识点技术选型 | OLAP大数据技术哪家强?数仓相关面试题从 0 到 1 学习 Presto,这一篇就够了!元数据管理在数据仓库的实践应用做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台...
数仓建模—宽表的设计
大数据技术派
2022-07-04
阅读 3 分钟
1.3k
关注公众号:大数据技术派,回复“资料”,领取1024G资料。数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系一文搞懂ETL和ELT的区别数据湖知识点技术选型 | OLAP大数据技术哪家强?数仓相关面试题从 0 到 1 学习 Presto,这一篇就够了!元数据管理在数据仓库的实践应用...
数仓建模—数据集市
大数据技术派
2022-07-04
阅读 3 分钟
1.2k
关注公众号:大数据技术派,回复“资料”,领取1024G资料。数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓...
数据仓库—开发规范
大数据技术派
2022-05-13
阅读 5 分钟
1.4k
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模关注公众...
数仓建模—建模工具PdMan
大数据技术派
2022-04-19
阅读 6 分钟
1.8k
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模工欲善其...
数仓建模—ID Mapping
大数据技术派
2022-04-01
阅读 5 分钟
1.1k
早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖相不错。我在想,小到炸屎黄色的油条,大到学习,其实都是一个熟能生巧的过程。
数据仓库—数据集成
大数据技术派
2022-04-01
阅读 3 分钟
1.4k
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模关注公众...
数仓建模—OneID
大数据技术派
2022-03-31
阅读 7 分钟
1.6k
今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下午我收到女朋友给我...
Spark—GraphX编程指南
大数据技术派
2022-03-27
阅读 27 分钟
1.4k
Spark系列面试题Spark面试题(一)Spark面试题(二)Spark面试题(三)Spark面试题(四)Spark面试题(五)——数据倾斜调优Spark面试题(六)——Spark资源调优Spark面试题(七)——Spark程序开发调优Spark面试题(八)——Spark的Shuffle配置调优GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹...
Hive基于UDF进行文本分词
大数据技术派
2021-01-01
阅读 12 分钟
3.9k
Hive系列文章Hive表的基本操作Hive中的集合数据类型Hive动态分区详解hive中orc格式表的数据导入Java通过jdbc连接hive通过HiveServer2访问HiveSpringBoot连接Hive实现自助取数hive关联hbase表Hive udf 使用方法Hive基于UDF进行文本分词Hive窗口函数row number的用法数据仓库之拉链表本文大纲UDF 简介Hive作为一个sql查询...
通过HiveServer2访问Hive
大数据技术派
2020-12-19
阅读 5 分钟
2.7k
Hive系列文章Hive表的基本操作Hive中的集合数据类型Hive动态分区详解hive中orc格式表的数据导入Java通过jdbc连接hive通过HiveServer2访问HiveSpringBoot连接Hive实现自助取数hive关联hbase表Hive udf 使用方法Hive基于UDF进行文本分词Hive窗口函数row number的用法数据仓库之拉链表先解释一下几个名词:metadata :hive...