Skip to main content

大数据概述

大数据概念

大数据就是指大量的数据volumn,除此之外还包含了数据的快速的数据读取velocity、数据类型多样化variety、存储大量有价值value的数据。大数据技术主要处理的非结构化的数据,主要技术集中在分布式存储分布式计算

分布式存储:主要是将多个计算机的存储设备通过网络连成一个整体,组成分布式集群,使得不同设备之间能够更加高效利用其存储空间。同时,为了能够方便使用这样的系统,需要实现像正常文件系统一样的数据读取功能,所以就需要解决数据在不同设备上的分配、数据应该存储到哪些位置等问题。

分布式计算:主要是能够使用分布式存储集群的数据完成一些计算任务,像特征工程、数据分析、深度学习等任务,因为数据的存储方式不一样,导致我们不能够使用传统的方法进行计算,因此需要针对分布式存储开发出新的方法来使用分布式存储的数据,来进行计算。分布式计算主要解决的问题是使用分布式的方式来调用分布式集群所存储的数据,完成某些计算任务的需求。

  • 数据量大(Volume)

    各种数据产生速度快,数量大

  • 数据类型繁多(Variety)

    产生了各种各样的数据,结构化数据和非结构化数据,邮件、图像、视频、位置信息、网络日志等

  • 处理速度快(Velocity)

    大数据的处理和分析速度要达到秒级响应,快速给出实时的分析结果

  • 价值密度低(Value)

    在大量的数据当中只有很小一部分数据是有用的,有价值的信息分散在海量的数据当中。(监控摄像头数据、商品需求趋势预测,花费大量财力物力,但收获不大)

大数据的应用

  • 汽车:无人驾驶
  • 金融:信贷风险分析、广告投放
  • 城市:智慧交通、智慧城市
  • 娱乐:视频网站视频推荐

大数据的技术层面

  • 数据采集和清洗(收集数据)

    功能:采集流数据;数据清洗、转换、集成

  • 数据存储和管理(存起来)

    功能:分布式存储;数据仓库;实现对结构化、半结构化、非结构化的数据进行存储和管理

  • 数据处理和分析(用数据得出结果)

    功能:分布式并行计算;机器学习和数据挖掘的数据分析;数据可视化

  • 数据安全和隐私保护(数据保护)

    功能:保护个人数据安全,防止因为大量数据导致隐私泄露

大数据计算模式

大数据计算模式解决问题代表产品
批处理计算针对大规模数据的批量处理MapReduce、Spark
流计算针对流数据(时间分布上无限的动态数据集合体)的实时计算Flink、Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算针对大规模图结构数据的处理(社交网络、传染病传播途径)Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算大规模数据的存储管理和查询分析,提供实时响应Hive、Impala、Dremel、Cassandra等

大数据与云计算、物联网的关系

  • 区别

    大数据侧重于对大量数据存储、处理和分析,发现海量数据当中的价值;云计算则是整合一切可利用资源,通过网络的方式提供给用户;物联网则是负责应用方面的创新,实现 “物物互联”。

  • 联系

    三者相辅相成。许多大数据技术是来源于云计算技术,没有云计算技术大数据也发展不起来;而云计算技术没有大数据会导致没有办法检验云计算技术应用的可行性。物联网则通过传感器提供源源不断的数据,是数据的主要来源,也是大数据领域的数据来源,没有物联网就不会推动大数据的发展。同时,物联网需要借助云计算和大数据技术来实现数据的存储、处理和分析。

总结:

大数据技术依赖于云计算

云计算技术通过大数据来验证

物联网提供大量大数据

云计算和大数据负责存储、处理和分析物联网的数据

大数据的思维方式

不像传统的数据处理方式,传统的数据处理是通过从大量数据当中抽样统计的方法,主要追求的是统计学上的概率,关注的是精确度。而大数据因为能够满足计算大量数据的需求,所以能够计算全样的数据,追求效率,关注相关性而非因果。