大数据特征4v
- 量大,数据指数级增长
- 数据种类多:结构化数据(mysql),半结构化(json),非结构化数据(视频,图片,语音等)
- 离线批处理 -> 实时流处理
- 数据有价值部分小,需要采用合理有效方式提取
为什么需要大数据,什么条件下需要大数据
- 需要结合自身业务,并不是所有类型业务都套大数据。ppt公司除外
- 对于部分业务处理半结构化数据采用传统的单机处理o(n)的时间很可能导致当天无法得到需要的报表,影响实时性
- 对于超大规模数据有需要
大数据背景
我认为大数据的相关不应仅仅局限于技术理解,更应对于其背景有深度的分析,才能更好运用技术结合实际,充分阅读了许多资料之后,总结下来有以下几点,大数据也基于以下形成三个历史过程
分析需求,数据收集存储=> 数据处理,分析=> 应用:如报告,展示- 5g,移动应用兴起,各行业互联网化产生大量数据 -> 数据采集来源(日志,数据库,爬虫)
企业对于大量数据清洗筛选有价值信息有较高的要求,有较高的实时分析需求 -> 数据分析
采集和简单分析常用生态有
- elk生态(elasticsearch+fileBeats+Logstash+Kibana) 本部分我将会在后边做详细描述
有价值的数据进行更深层次分析推理 -> 数据挖掘
- 一般涉及算法,结合大数据构建数据模型,对未来进行预测
传统数据分析与现今大数据分析对比
- 传统数据处理强调纵向扩展:单机性能有瓶颈
- 大数据处理通过网络将机器连接在一汽构成集群,提供分布式计算和分布式存储
概念来源google论文
- 1-DFS:HDFS-Hadoop Distribute File Systerm
- 2-MR:MapReduce
- 3-BigTable:Hbase
到底需不需要,从公司开销角度分析:
- 每年对于中型10-30人项目组开发费用350w(开发人员薪资按平均1.3w,20人,13薪),搭建自己业务的前端,大数据群
- 硬件:多核cpu,大容量固态硬盘(基于分布式一般2份备份数据)托管费(机位费,千兆带宽,电费维护费)对于超大型大数据项目,设备费甚至电费都会远超人工费用,但中型公司能够接触到整个环节,能够对于整个流程理解更加深刻。大约评估:以2020年数据,400tb存储+千兆带宽+intel4核高性能cpu+维护的设备费约60w,人工费400w。
节约成本的方法: ....想省钱的放弃做大数据最省钱,短期大数据的变现能力和开销是需要各个企业做深度评估的
基本操作:合理分配计算资源,存储资源,权限资源,业务资源
- 存储:1.首先要意识到我们的数据中有大量的无效数据,要有意识的删除过期的数据,做好数据的生命周期管理与冷热分离。2.Snappy、Gzip,能压缩80%的空间,3.采用列式存储parquet可以不必将整条记录检索。
计算资源管理:这个是一个很大的范畴,涉及dba,运维,大数据管理员
- 硬件上:cpu,memory,network,io
- 流程上:启动时的资源分配,磁盘异常使用的检测,超过常规数据量2倍或以上时的处理,集群扩容的评估,了解集群是否有机器错误率高,是否有人为sql错误导致的处理速度慢,队列管理等
- 业务资源管理:理解业务,尽可能做到适合业务的发展,但无论是大数据技术还是如今的互联网需求变化都非常快,过去的技术栈可能成为未来的发展瓶颈,需求会随着热点变化,导致过去的技术结构无法适应,打补丁来弥补
- 本课程接下来会涉及的生态部分
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。