当前位置 首页 >范文大全 > 演讲稿 >

大数据驱动了我们的生活

作者:jkyxc 浏览数:

当下互联网技术愈发普及,创新的即时通信技术蓬勃发展,云计算服务逐渐渗透到人们的日常生活当中……这一切都标志着大数据时代的来临。从简单的数字———“小数据”跃变成多样的数字、文本、图片和视频———“大数据”,人们的生活也随即被动地改变了。

1.引言

本文系统地、全面地介绍大数据的基本概念、分析数据源头和特征,详细介绍了商界中的大数据行动、医学界眼中的大数据、利用大数据预测变化多端的天气和崭新的大数据课堂,深入解析大数据处理的全过程以及数据分析的方法和工具。

2.什么是大数据

2.1大数据的含义

从字面上的理解,大数据指的是数据量的庞大。但这含义并不能全面地诠释大数据,目前社会各方对大数据有着不同的理解和定义:

在百度百科中的大数据,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡全球研究所指出大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征,而且规模大到在获取、存储、管理和分析等方面大大超出了传统数据库软件工具能力范围的数据集合。

在全球最权威的信息技术研究和分析公司———高德纳咨询公司的眼中,大数据是一种海量的、高增长率的和多样化的信息资产,并且能通过新模式处理后而具有更强的决策力、洞察发现力和流程优化能力。

综合上述各专家机构的观点,我认为大数据不仅仅局限在其规模和数量上的大和多,而且是杂乱无章的,需要经过收集筛选、深度挖掘、分析处理才能取得有价值的信息。利用大数据的最终目标是要研究其是否有意义,任何无意义的或者没有发现其有价值的数据都是冗余。

2.2大数据的源头

当开始利用数据库技术对数据进行收集、预处理、存储和分析时,人们对数据的接受方式也发生了明显的变化:由被动接受到主动接触,进而到自动处理三大阶段。要获得有价值的信息,首先是数据的存在,那么大数据来源于哪里?

2.2.1互联网数据

随着互联网的普及,数据量呈现出爆发性的增长,互联网也进入了一个崭新的时代———Web2.0时代。越来越多的网络使用者利用网页进行数据交换,分享网络浏览内容与痕迹,无时无刻地都在产生数据。如以新浪微博、Facebook、Twitter和微信为例的社交媒体,每天发布超过3亿的即时生活信息、视频,通过记录用户点赞量为客户收集用户的喜好,使数据接受者的我们瞬间变为大数据的制造者。

2.2.2物联网数据

物联网被誉为互联网与传统通信网络的信息载体,能够使具有不同功能的产品在互联网中实现线上与线下的数据交换的网络。物联网的两大核心分别是:“物”和“网”。“物”是指扩展到各种产品的客户端,例如可穿戴式設备、汽车的智能导航系统和智能家居关联的生活设备(如窗帘、电灯、安防和影视设备)等;“网”指的还是互联网。便携智能设备、智慧家居、人工智能交通调控……这些之所以能够存在,原因在于数据。而正是具有数据采集功能的传感器、视频和其他智能设备的发展,促使海量数据的生成。

2.2.3企业数据

早在20世纪80年代,企业开始意识到海量数据真正价值。在他们的眼中,数据都源自于企业内部数据系统(例如OA办公自动化系统、ERP企业资源计划信息平台和CRM客户管理系统等),另外还有企业外部数据系统(例如视频监控、电话访问、信件和电子邮件反馈、照片以及电子游戏等),通过分析这些大数据,从中获取有价值的信息,改变产品设计和销售策略,进而提高销售额。

2.3大数据的特征

被誉为“大数据之父”的维克托·迈尔·舍恩伯格在他和肯尼斯·克耶编写的《大数据时代》中提及到,大数据具有4V特征:高容量性(Volume)、珍贵性(Value)、多种性(Variety)和实时性(Velocity),另外,IBM也总结了第五个V特征———真实与准确性(Veracity)。

2.3.1高容量性

未来学家阿尔文·托夫勒曾赞颂大数据为“第三次浪潮的华彩乐章”,这间接地说明大数据如浪潮般地涌入。过去描述数据有多大我们用的是多少GB或者是多少TB,但是现在我们衡量数据是以多少PB、多少EB或者多少ZB来算。1 PB=1024×1024×1024 MB,通常我们拍摄一张高精度高对比度的照片大小一般为15 MB,则1 PB的储存空间能储存7158万张照片。目前全人类社会大概共拍摄了超过3.5万亿张照片,其中发布在脸谱网上的就有1 400亿张。除了社交网站,手机移动端、可穿戴设备和银行ATM机等各种智能设备,都能生产高容量性的大数据。

2.3.2珍贵性

尽管每分每刻都在生产数据,但是对于我们来说并不是所有的数据都是有价值的。有些数据或许对你来说没什么用,但对一些特定的人群来说,某个数据是珍贵的。在茫茫的数据海洋中,“闪闪发光的金子”所占的比例虽然非常的小,但其背后所具有的价值是非常巨大的,这就是其珍贵性之所在。例如关于大数据最经典的案例———沃尔玛的“啤酒和尿布”,一般人都不会把啤酒和尿布联想到一起,但是数据分析员了解到年轻的爸爸在买尿布的时候也顺便买啤酒来表扬自己,于是才创出了捆绑销售的先河。

2.3.3多种性

大数据的多种化主要体现在数据的来源多而杂和数据的表现形式多样。

①数据的来源多而杂,一般来源于互联网、物联网、企业或行业数据。②数据的表现形式多样:在企业或行业当中,数据一般以图表的形式存在,这种数据间存在着较强的因果关系,因此也称为结构化数据;在商业中,数据是以文本、数字、视频监控、照片、网页、音频和链接等形式表现,属于非结构化数据,其特点是数据与数据间没有较为明显的因果关系。当然也有介于结构化数据和非结构化数据之间的数据———半结构化数据,例如超文本标记语言文档。

2.3.4实时性

数据类似流水一样,是不断流动的,而数据的价值则和处理时间的长度成反比例趋势下降。大数据在处理过程中需要遵循“一秒定律”,顾名思义是要求至少在秒级的时间范围内做出响应,并判断出此数据是否有价值,实时处理数据的能力将会受到极大挑战。

2.3.5真实与准确性

IBM曾公开表示:“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。”

3.大数据是有价值的

2018年9月20日,“大数据时代的预言家”维克多·迈尔·舍恩伯格在数博会上发表了“数据将成配置经济资源的核心要素”,可见只要立足于数据,经过合理地分析和利用,数据将会以不可估量的价值来回报我们。

3.1商界中的大数据行动

2012年大数据开始进入大众的眼帘,原因是有不少高端的国际化企业加快对大数据应用的推进,如搜索引擎谷歌、社交网站巨头脸谱网和跨境网络电子零售商亚马逊等。谷歌既保存用户的搜索结果的同时,也存储了用户的搜索行为(时间、内容和寻找方式),这能让它在短时间内判断出用户的搜索目标是什么并做出推荐。据统计数据,在一个月内谷歌处理的搜索请求就达到122亿次以上,如此庞大的用户群将给他带来非常可观的广告收益。亚马逊通过收集用户对新按钮的点击量与旧按钮做数据对比,当新按钮的点击率达到稳定或者是更可观的时候,新设计将会取代旧设计。这就隐喻了数据是设计的风向标,它能够告诉我们用户喜欢什么样的设计,哪些是有效的,哪些是无效的。

3.2医学界眼中的大数据

传统的医学诊断一般都是以薪火相传的经验为主,这将导致真正有疗效的治疗方法因传播范围狭小而未被广泛应用。因此,最好的治疗是基于医学案例,统计并分析各种不同的病例所采用的不同诊疗手段。过去分析人口数据,发现人均寿命较短,婴儿的出生死亡率较高,通过分析大数据,大力宣传普及预防疫苗,从而降低了幼儿的死亡率。DNA测试和数据分析公司23andMe将大数据应用在人类遗传学上,随着研究技术的深入和处理能力的提高,过去价格高昂的个人DNA测评,现在仅需人民币300多元就可解开自身的遗传密码。2015年,首家在美国上市的可穿戴设备设计与制造公司Fitbit发布一款能够跟踪使用者一天下来的所有身体活动,包括夜间睡眠监测。随后相继出现了Nike手环、小米手环和微信自带的“微信运动”功能等。通过这些设备和程序,用户可以更加方便、快捷并实时地掌握自己的身体状况,当出现报警时,就会提高注意了。

3.3变化多端的天气———大数据预测

大数据除了能够在商业、医学上获得广泛的应用外,也能在预测变化多端的天气方面贡献一份力量。目前每天仅是天气数据容量就達到30 TB,总数据量大概是23 PB,储存的基本要素一般有温度、气压、雨量、湿度、风速和风向。气象大数据蕴含了巨大的价值。2012年,专注于医药的企业默克公司分析了过去的和现在的气象数据,发现每逢5月天气将变暖促使了花粉的传播,因此默克公司改变销售策略,加大过敏的宣传力度,最后赚取可观的利润。气象大数据还能为航空飞行保驾护航,减少由于天气灾害造成的损失。

3.4崭新的大数据课堂

班布里克·桑托约曾在《数据驱动:改进授课的实际指南》中提出数据驱动能有效地跟踪学习效果,帮助教师改善教学方法。由哈佛大学和麻省理工大学打造的非营利性EDX数字教育平台,该平台已经有超过90万人注册,拥有包括医学、金融、计算机科学和统计学等不同学科的教学视频与讲义超过3 600个,教师通过EDX平台以电子的形式传递课件、布置作业、进行一系列的测评和考试。除此之外,国内也有类似的网络教育平台和移动端,例如考试吧网站、微课和雨课堂等,利用线上和线下学习相结合的方式,让学生在学习枯燥的知识时感到有趣,提高了学生的关注度与投入度,促进课堂教学的效率。

4.处理大数据的方法

在茫茫的数据大海当中,如何才能快速找出我们需要的“金子”?处理大数据的方法很重要。大数据的解决方案异于传统技术,它是以牺牲一定的数据一致性为代价,追求数据的灵活与扩展,并在短时间内完成数据处理。当前应用在处理大数据的技术有ETL数据预处理平台、流处理实时分析、海量并行处理数据库(MPP)、分布式系统架构(Hadoop)、云计算系统、互联网,HDFS分布式文件系统以及大数据的分布式模型Map Reduce技术等。

4.1 MPP

海量并行处理数据库由多个对称多处理器系统共享一定网络的所有资源,共同完成任务。从用户的角度去看,它们是一个整体,但实际上每个SMP服务器单元里的控件都是独立的,资源和权限分开的。由于MPP采用分布式结构并以列为单位储存数据,与传统的数据库相比,它能处理PB级的数据,具有强大的输入输出能力和可扩展能力。

4.2 Hadoop

Hadoop作为Lucene的子项目被ASF公司正式公开发表。它是基于分布式处理方法MapReduce实现框架并储存海量数据。它的核心设计共有2个模块:①HDFS分布式文件系统;②分布式大数据处理框架MapReduce技术。Hadoop融合了这二者容错性高、实时交换数据量多、大容量存储、低成本和高速度运算等优点。

4.3 MapReduce

大数据的分布式模型MapReduce,是通过分派海量数据任务给一个SMP服务器旗下各分节点协同完成,接着跟踪整理各节点的分步成果,最终融合成结果。通俗地说,MapReduce就是一个先分解任务后聚合成果的过程。MapReduce主要完成划分数据、调度计算任务、双向定位数据与代码、优化系统、检测出错和恢复数据。

5.结束语

通过了解大数据对商界、医学界、气象学和教育等领域的深远影响后,可以看到大数据是有价值的,它实实在在、无时无刻地改变并驱动了我们的生活。目前大数据技术还是处于初级发展阶段,未来还会遇到各种机遇和挑战。

推荐访问:驱动 数据 生活

相关文章:

Top