大数据背景

大数据特征4v

量大，数据指数级增长
数据种类多：结构化数据(mysql)，半结构化（json），非结构化数据（视频，图片，语音等）
离线批处理 -> 实时流处理
数据有价值部分小，需要采用合理有效方式提取

为什么需要大数据，什么条件下需要大数据

需要结合自身业务，并不是所有类型业务都套大数据。ppt公司除外
对于部分业务处理半结构化数据采用传统的单机处理o(n)的时间很可能导致当天无法得到需要的报表，影响实时性
对于超大规模数据有需要

大数据背景

我认为大数据的相关不应仅仅局限于技术理解，更应对于其背景有深度的分析，才能更好运用技术结合实际，充分阅读了许多资料之后，总结下来有以下几点，大数据也基于以下形成三个历史过程
分析需求，数据收集存储=> 数据处理，分析=> 应用：如报告，展示
- 5g，移动应用兴起，各行业互联网化产生大量数据 -> 数据采集来源（日志，数据库，爬虫）
- 企业对于大量数据清洗筛选有价值信息有较高的要求，有较高的实时分析需求 -> 数据分析
  - 采集和简单分析常用生态有
    - elk生态(elasticsearch+fileBeats+Logstash+Kibana) 本部分我将会在后边做详细描述
- 有价值的数据进行更深层次分析推理 -> 数据挖掘
  - 一般涉及算法，结合大数据构建数据模型，对未来进行预测

传统数据分析与现今大数据分析对比

传统数据处理强调纵向扩展：单机性能有瓶颈
大数据处理通过网络将机器连接在一汽构成集群，提供分布式计算和分布式存储
概念来源google论文
- 1-DFS：HDFS-Hadoop Distribute File Systerm
- 2-MR：MapReduce
- 3-BigTable:Hbase

到底需不需要，从公司开销角度分析：

每年对于中型10-30人项目组开发费用350w(开发人员薪资按平均1.3w，20人，13薪)，搭建自己业务的前端，大数据群
硬件：多核cpu，大容量固态硬盘(基于分布式一般2份备份数据)托管费（机位费，千兆带宽，电费维护费）对于超大型大数据项目，设备费甚至电费都会远超人工费用，但中型公司能够接触到整个环节，能够对于整个流程理解更加深刻。大约评估：以2020年数据，400tb存储+千兆带宽+intel4核高性能cpu+维护的设备费约60w，人工费400w。
节约成本的方法： ....想省钱的放弃做大数据最省钱，短期大数据的变现能力和开销是需要各个企业做深度评估的
- 基本操作：合理分配计算资源，存储资源，权限资源，业务资源
  - 存储：1.首先要意识到我们的数据中有大量的无效数据，要有意识的删除过期的数据，做好数据的生命周期管理与冷热分离。2.Snappy、Gzip，能压缩80%的空间，3.采用列式存储parquet可以不必将整条记录检索。
  - 计算资源管理：这个是一个很大的范畴，涉及dba，运维，大数据管理员
    - 硬件上：cpu,memory,network,io
    - 流程上：启动时的资源分配，磁盘异常使用的检测，超过常规数据量2倍或以上时的处理，集群扩容的评估，了解集群是否有机器错误率高，是否有人为sql错误导致的处理速度慢，队列管理等
  - 业务资源管理：理解业务，尽可能做到适合业务的发展，但无论是大数据技术还是如今的互联网需求变化都非常快，过去的技术栈可能成为未来的发展瓶颈，需求会随着热点变化，导致过去的技术结构无法适应，打补丁来弥补

本课程接下来会涉及的生态部分

大数据背景

大数据特征4v

为什么需要大数据，什么条件下需要大数据

大数据背景

传统数据分析与现今大数据分析对比

到底需不需要，从公司开销角度分析：

eason

引用和评论

hive建模分析

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

大数据背景

大数据特征4v

为什么需要大数据，什么条件下需要大数据

大数据背景

传统数据分析与现今大数据分析对比

到底需不需要，从公司开销角度分析：

eason

引用和评论

hive建模分析

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈