所属章节:

第11章. 未来信息综合技术

        第6节. 云计算和大数据技术概述

大数据和云计算已成为IT领域的两种主流技术。“数据是重要资产”这一概念已成为大家的共识,众多公司争相分析、挖掘大数据背后的重要财富。同时学术界、产业界和政府都对云计算产生了浓厚的兴趣:全球范围内讨论云计算技术学术活动如火如荼;谷歌、亚马逊、IBM、微软等IT巨头大力推动云计算的宣传和产品的普及。各国政府斥巨资纷纷打造大规模数据中心与计算中心。

1. 大数据的定义

(1)维基百科的定义

大数据是指其大小或复杂性无法通过现有常用的软件工具、以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入存储搜索共享分析可视化

(2)Granter的定义

Granter公司关注大数据的三个量化指标数据量数据种类处理速度。Granter认为传统的存储技术难以应付大数据处理,主要存在以下三大挑战

  • 挑战一:不断增长的数据量

在大数据背景下,数据这一宝贵财富通常是不能删除的,因此数据将不断积累增长,增长速度经常超出人们预计。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,信息系统需要不断地作相应升级或重构,需要投入大量人力物力。

  • 挑战二:多格式数据

海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。

  • 挑战三:性能

速度是指数据从客户端到处理器的存储的移动速度,涉及终端数据处理能力、数据流访问和支付、服务器计算处理能力和后端存储的吞吐能力。速度意味着要求数据必须以足够快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比I/O操作的速度更重要。

(3)IBM的定义

IBM人为大数据横跨三个层面数量速度品种。IBM将大数据概括为三个V,即大规模(Volume)高速度(Velocity)多样化(Variety),这些特点也反映了大数据所潜藏的价值Value第四个V)。因此,大数据的特征可以整体概括为:“海量 + 多样化 + 快速处理 + 价值”。

(4)SAS的定义

SAS在大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。

可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。

复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此以外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据治理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。

11-16 13:48