4

在这个网络飞速发展的时代,PC、手机越来越智能,每个人连接网络世界的成本越来越低,端产生的流量就越来越庞大,如果把这些数据都存储下来利用,大数据就诞生了。我们做个简单的计算:中国7亿(15年统计)手机网民,每天浏览30分钟网页(图片、视频流量更大),大约会浏览30个网页,每个网页1KB流量,则会产生30KB流量,那么全国手机网民会产生至少20P数据流量。这么大的数据,现在个人硬盘最大也才16T吧,但是全国网民每天都要产生1000个最大硬盘的数据,对服务商来说,如此庞大的数据,就是大数据了。如果想要将这个庞大的数据利用起来,比如做个智能推荐的功能,那就涉及到下面要介绍的大数据相关的技术了。

img

谁会用大数据

大数据的利用价值还在不断被挖掘,就像一个巨大的宝藏库。目前,大数据大多在金融、电商、信用评估、视频等领域,并且做智能推荐的较多。比较知名的企业:

  • 亚马逊 | 阿里巴巴 | 美团 等电商利用大数据做智能推荐和广告决策
  • 银行 | 信贷 等征信企业会通过大数据评估个人或企业的信用等级
  • T-Mobile | 中国移动 等移动运营商通过大数据智能推荐消费套餐
  • YouTube | 搜狐 等视频网站通过大数据智能推荐视频
  • Starbucks 等餐饮企业通过大数据决策店面地区和位置

消费者研究公司Mintel在2015年的报告中指出43%的喝茶饮的顾客不会添加糖,星巴克便根据这份报告创造了两个不加糖的冰茶K-杯、芒果绿色冰茶桃色红茶。

iced-tea

大数据怎么存储

目前存储大数据一般采用NoSQL (Not Only SQL)分布式数据库。

传统的数据库如Oracle、MySql等都是关系型数据库,存储的是结构化的数据,可以通过SQL语句进行增删改查等操作。但是NoSQL是一种可以水平向扩展以及分布式计算的数据存储技术,存储半结构化的数据,并且不再使用SQL语句作为操作方式,而是使用列存储或者key-value等多种形式进行存储查询操作。

常见的NoSQL数据库分类:

  • 列存储: HBase
  • 文档存储: MongoDB
  • Key-Value存储: Redis

nosql-vs-sql

使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等

大数据怎么处理

由于大数据的数据量之大,传统的数据处理软件很难快速的计算出想要的结果,因此大数据的处理技术也相对较困难和复杂。一般的,处理大数据会使用以下流程:

1. 数据采集

首先需要从传统的(分布式)数据库中读取数据,进行清洗、转换、集成,最后加载到数据仓库。

2、数据存取

一般以分布式云存储为架构,存储时需要使用NoSQL数据库为主,关系数据库为辅的方式进行存储。

3、数据处理

对数据的处理一般采用自然语言处理,自然语言处理是研究人与计算机交互的语言问题的一门学科。自然语言处理后能将数据进行分割成很小的单位。

4、统计分析

统计分析时会利用多种分析技术,如logistic回归分析、聚类分析、假设检验、显著性检验、等。

5、数据挖掘

挖掘有价值的数据,采用的手段如分类、估计、预测、相关性分组或关联规则、聚类。  

6、模型预测

该阶段的目的是进行未来目标预测,通过建立预测模型、机器学习、建模仿真等手段进行计算。 

7、结果呈现

最终的处理结果会通过云计算、标签云、关系图等进行展示。

处理大数据的框架越来越多,使得处理大数据也越来越方便,但更多的是根据商业用途和业务场景进行划分,选取最合适的技术最重要。

bigdata-hanle

大数据离我们远吗?

大数据好像生来就是大企业在玩儿的东西,虽然我们每个人可能都贡献了一些数据,但我们离大数据是不是很远?答案是否。最典型的,淘宝的商品推荐功能。想必每个人都有淘宝购物的经历,在准备搜索某个宝贝的时候,淘宝客户端会实时推送不同的商品,有时候用户会发现推送的商品正是自己想要购买的。但用户并没有该商品的购买记录。那淘宝是如何做到的呢?答案就是大数据+智能推荐。淘宝背后正是对千万用户的消费习惯进行分析挖掘,才能做到这样的准确推荐。


luodongseu
65 声望6 粉丝

全栈工程师