图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据

2022-03-08
阅读 21 分钟
721
文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景,讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程,并且对分析结果做了可视化呈现。
封面图

图解大数据 | 综合案例-使用spark分析新冠肺炎疫情数据

2022-03-08
阅读 16 分钟
1.5k
2020以来新冠疫情改变了全世界,影响着大家的生活,本案例结合大数据分析技术,使用pyspark对2020年美国新冠肺炎疫情进行数据分析,并结合可视化方法进行结果呈现。
封面图

图解大数据 | Spark Dataframe/SQL大数据处理分析

2022-03-08
阅读 7 分钟
1.3k
在高版本的Spark中,我们可以使用Dataframe这个结构形态更方便快捷地对数据进行处理,而且它也和我们熟悉的python pandas Dataframe的很多操作可以类比关联。
封面图

图解大数据 | 基于Spark RDD的大数据处理分析

2022-03-08
阅读 5 分钟
1.2k
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处1.RDD介绍要掌握基于Spark的大数据处理操作,大家首先要了解Spark中的一个核心数据概念:RDD。《更多资料 → 数据科学工具速查 | Spark使用指南(RDD版)》1)RDD介绍RDD,全称为Resilient Distributed Datasets(弹性...
封面图

图解大数据 | 大数据分析挖掘-Spark初步

2022-03-08
阅读 6 分钟
872
Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上,形成集群。
封面图

图解大数据 | 海量数据库查询-Hive与HBase详解

2022-03-08
阅读 7 分钟
803
大家知道在计算机领域,关系数据库大量用于数据存储和维护的场景。大数据的出现后,很多公司转而选择像 Hadoop/Spark 的大数据解决方案。
封面图

图解大数据 | 实操案例-Hive搭建与应用案例

2022-03-08
阅读 11 分钟
825
大数据生态中最重要的工具平台之一是Hive,它是离线计算的关键组件,常用于数仓建设,在公司内会通过SQL实现大数据的统计与报表。下面来看一下Hive的搭建和配置使用方法。
封面图

图解大数据 | 实操案例-MapReduce大数据统计

2022-03-08
阅读 6 分钟
972
本教程ShowMeAI详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法,关于Hadoop与map-reduce的基础知识,大家可以回顾ShowMeAI的基础知识讲解篇分布式平台Hadoop与Map-reduce详解。
封面图

图解大数据 | 实操案例-Hadoop系统搭建与环境配置

2022-02-25
阅读 8 分钟
780
本教程ShowMeAI详细给大家讲解Hadoop的安装与环境配置方法,关于Hadoop与map-reduce的基础知识,大家可以回顾ShowMeAI的基础知识讲解篇分布式平台Hadoop与Map-reduce详解。本教程的工作环境为Linux系统(实际有大数据环境的公司,工作与开发环境很多也是在服务器上,大家可以尽早熟悉一下)。
封面图

Python数据分析 | seaborn工具与数据可视化

2022-02-25
阅读 10 分钟
1.2k
Python中最常用于数据可视化的工具库包括Matplotlib和Seaborn。其中,Matplotlib属于 Python 数据可视化的基础库,具备很高的灵活度,但应用过于复杂——官方文档有3000 多页,包含上千个方法以及数万个参数。
封面图

Python数据分析 | 基于Pandas的数据可视化

2022-02-25
阅读 4 分钟
1k
大家在前面的教程中看到了Pandas进行数据分析的灵活操作,但同时作为一个功能强大的全能工具库,它也能非常方便地支持数据可视化,而且大部分基础图像绘制只要一行代码就能实现,大大加速了我们的分析效率,本文我们介绍pandas可视化及绘制各种图形的方法。
封面图

Python数据分析 | 数据可视化原则与方法

2022-02-25
阅读 3 分钟
888
我们经常听到一个说法“能用图描述的就不用表,能用表就不用文字”,确实我们在认知上,对于图形的敏感度远比文字高,获取的信息也更丰富。我们在互联网企业中更是随处可见各种数据看板,帮助我们第1时间了解数据与业务状况。
封面图

Python数据分析 | Pandas数据分组与操作

2022-02-25
阅读 4 分钟
1.2k
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。pandas整个系列覆盖以下内容:图解Pandas核心操作函数大全图解Pandas数据变换高级函数Pandas数据分组与操作一、Pandas数据分组与操作在我们...
封面图

Python数据分析 | Pandas数据变换高级函数

2022-02-25
阅读 5 分钟
992
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。pandas整个系列覆盖以下内容:图解Pandas核心操作函数大全图解Pandas数据变换高级函数Pandas数据分组与操作本篇为『图解Pandas数据变换高级...
封面图

Python数据分析 | Pandas核心操作函数大全

2022-02-25
阅读 7 分钟
1.2k
当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。本篇为pandas系列的导语,对pandas进行简单介绍,整个系列覆盖以下内容:
封面图

Python数据分析 | 数据分析工具库Pandas介绍

2022-02-25
阅读 2 分钟
970
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处一、Pandas介绍官网:[链接]文档:[链接]Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pan...
封面图

Python数据分析 | Numpy与高维数组操作

2022-02-25
阅读 3 分钟
948
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与3维、更高维数组的操作。
封面图

Python数据分析 | Numpy与2维数组操作

2022-02-25
阅读 6 分钟
1k
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与2维数组操作。一、向量初始化NumPy中曾有一个专用的matrix类来...
封面图

Python数据分析 | Numpy与1维数组操作

2022-02-25
阅读 5 分钟
665
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与1维数组操作。一、向量初始化可以通过Python列表创建NumPy数组...
封面图

Python数据分析 | 统计与科学计算工具库Numpy介绍

2022-02-25
阅读 2 分钟
683
数据分析、机器学习和深度学习领域,很多计算过程可以通过向量和矩阵进行并行化的高效处理,而NumPy可以很好地支撑向量化运算。NumPy 包是Python生态系统中科学计算的核心支撑之一,数据分析工具库 pandas,计算机视觉工具库OpenCV等库都基于NumPy。熟悉NumPy之后,知名的深度学习框架PyTorch、TensorFlow、Keras等,也...
封面图

图解数据分析 | 数据分析工具地图

2022-02-25
阅读 3 分钟
281
基于数据分析目前良好的发展前景,各界也出现了许多好用的功能种类丰富的数据分析工具。列举其中的一些(本系列教程将聚焦于Python,讲解如何使用Python完成全链条的数据分析过程):
封面图

图解数据分析 | 业务分析与数据挖掘

2022-02-25
阅读 4 分钟
692
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第三个步骤——业务认知与数据探索。一、业务分析模型1.1 AB测试AB测试,简单来说,就是为同一个产品目标制定...
封面图

图解数据分析 | 数据清洗与预处理

2022-02-25
阅读 4 分钟
728
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第二个步骤——数据预处理。不能想当然地认为数据是有效的。 在现实世界中,数据一般都是异构的、有缺失的、...
封面图

图解数据分析 | 业务认知与数据初探

2022-02-25
阅读 6 分钟
586
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第一个步骤——业务认知与数据探索。一、常见业务目标(1)描述性分析:分析和描述数据的特征描述性分析是处...
封面图

图解数据分析 | 数据分析的数学基础

2022-02-25
阅读 4 分钟
827
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处一、一维:描述性统计速查表[链接][链接]描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。1.1 集中趋势数据的集中趋势,用于度量数据分布的中心位置。直观地说,测量一个属性值的大部分落在何处。描...
封面图

图解AI数学基础 | 微积分与最优化

2022-02-25
阅读 8 分钟
609
我们在做事过程中,会希望以最小的代价取得最大的收益。在解决一些工程问题时,人们常会遇到多种因素交织在一起与决策目标相互影响的情况;我们会使用最优化数学理论来应对这一挑战,而大家了解的线性规划也是最早的最优化方法之一。
封面图

图解AI数学基础 | 信息论

2022-02-25
阅读 5 分钟
549
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论中包含的知识和概念在机器学习中也有应用,典型的例子是其核心思想『熵』的应用。
封面图

图解AI数学基础 | 概率与统计

2022-02-25
阅读 10 分钟
806
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处1.概率论及在AI中的使用概率(Probability),反映随机事件出现的可能性大小。事件\( A \)出现的概率,用\( P(A) \)表示。概率论(Probability Theory),是研究随机现象数量规律的数学分支,度量事物的不确定性。...
封面图

图解大数据 | 导论-大数据生态与应用

2022-02-25
阅读 7 分钟
645
随着互联网高速发展,网络数据呈现出指数级别的快速增长,企业应用需要处理的数据量也变得非常巨大,轻松达到了TB、PB甚至EB、ZB级别,需要巨型存储空间进行存储。而对这些数据进行处理和分析挖掘,仅仅使用单机处理已经无法完成,这个大背景下,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中...
封面图

图解数据分析 | 数据分析介绍

2022-02-25
阅读 4 分钟
572
作者:韩信子@ShowMeAI教程地址:[链接]本文地址:[链接]声明:版权所有,转载请联系平台与作者并注明出处一、数据分析的定义互联网时代来临,随着用户需求和用户行为的多样化,数据量有了指数级别的大幅增长。但是,原始数据(信息)只是一串数字或字符。对这些原始数据进行检查、清理、转换以及建模等操作,才可以洞察...
封面图