大数据作为时下十分热门的技术,正在为越来越多的人所关注。那么,什么样的数据叫做大数据,大数据又究竟有多大呢?
简单来说,大数据是指那些量大,且复杂到无法用传统数据处理方法来处理的数据集合,它具有四大特点:
特点一,体量大。
大数据是使用数据全体进行研究,所以它们的体量大到远远超出我们的想象,以2020年为例,人类全年共产生35万亿GB的数据,如果用容量最高的手机存储这些数据,将需要3000多亿台手机,如果把这些手机一个个叠放起来,其厚度相当于200个地球。
特点二,类型多。
大数据不仅包括各类聊天工具的字母数字等文字信息,也包括我们上班、上学、就餐时各类导航平台所产生的习惯路线、交通情况、饭菜点评等信息。另外,我们上传朋友圈照片和短视频都可以算作大数据的一部分。
特点三,速度快。
大数据的产生和处理速度都非常快,比如我们常用的微信,最多的时候一分钟可以产生一千多万条信息,要想把它们在那么短的时间内一起发送出去,着实是一件不简单的事呢。
特点四,收益广。
通过对大数据的分析和挖掘,我们能够让它创造价值,比如说,假期的时候,爸爸妈妈经常会带着小朋友出门旅行,过去,确定旅游路线是一个非常困难的事情,而现在,我们可以收集前辈对于景点的评价及客流量,自动规划出一条最方便的旅行路线,还能够根据以往机票的价格,预测最便宜的购票日期。
不过呢,并不是所有看上去很大的数据都是大数据,举个例子来说,我国每十年都会进行一次全国人口普查,统计我国各地人口的数量、年龄、性别等信息,这会获得海量的数据,这些数据产生速度很慢,类型小通常使用传统数据处理方法就能够获得想要的结果,所以并不能算大数据。
为了大家更容易理解大数据,在接下来给大家量化描述大数据,我们先来看一下数字数据的单位,按从小到大的顺序依次为:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。bit(比特)是表示信息的最小单位,是二进制数的一位包含的信息或2个选项中特别指定1个的需要信息量。 一个Byte由8bits组成,是数据存储的基础单位,1Byte又称为一个字节。
1KB(Kilobyte 千字节) = 1024 B
1MB(Megabyte 兆字节) = 1024 KB
1GB(Gigabyte 吉字节) =1024 MB
1TB(Trillionbyte 太字节) =1024 GB
1PB(Petabyte 拍字节) =1024 TB
1EB(Exabyte 艾字节) =1024 PB
1ZB(Zettabyte 泽字节) =1024 EB
1YB(YottaByte 尧字节) =1024 ZB
1BB(Brontobyte ) =1024 YB
1NB(NonaByte ) =1024 BB ;
1DB(DoggaByte) =1024 NB ;
只是看这些字母的话,貌似不是很直观,举例说明1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年……
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。阿里、百度、腾讯这样的互联网巨头,数据量就在EB 级。
目前全人类的数据量,是ZB级。到2020年底,全球电子设备存储的数据将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
数据量不仅大,增长还很快,每年大概增长50%。也就是说,每两年,数据量就会增长一倍。目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。