让数据会说话——如何处理大数据

2021-06-28 来源：

随着海量数据时时刻刻不停产生，如何使用好这些海量数据，对个人、家庭，社会和国家都非常重要。比如说，商家需要获取最近一段时间哪些商品最好卖，哪些商品不太受欢迎等信息，以便决定采购的商品种类和数量，传统的作法需要商家投入大量的人力物力财力做市场调查，既费时费力，又增加了成本，而且受样本采集的影响，导致调查结果可信度不高。有了大数据，只要对所有目标用户日常购买商品的行为数据进行分析，就可以获得第一手精确的市场信息。

随着大数据的普及，越来越多的各类数据价值等着人们去开发利用。但要使用大数据，就必须先进行大数据处理。而海量的数据不可能在短时间内就处理完的，除了需要有一定的数据处理技术，还需要有一些大数据处理的工具来进行配合。

通常，大数据处理包括以下四个流程：

大数据处理流程一：数据采集

数据采集，顾名思义就是使用一些设备来进行数据收集。我们每个人的手机可能都是某些软件的数据收集终端，我们每天的运动步数可能会被支付宝/微信记录下，我们每天点开软件的次数等等这些操作，都是各个软件收集数据的一个手段。这些数据被存储到上文提到的数据存储仓库——数据库中，成为大数据的一部分。数据在数据库中有序排列，以便可以分类查询和提取展现。由于是海量数据，因此需要多个数据库来接收和存储目标用户的各类数据，例如淘宝网、京东、百度等某些大型的门户网站，同时会有大量的用户进行操作和访问，同时产生大量用户行为数据，这就需要大量的数据库才能存储数据并支撑运营。

大数据处理流程二：数据导入

数据采集时要用到数据库，如果要对海量数据进行有效分析，还要将这些采集到的数据导入到一个更大型的数据库——分布式数据库或者分布式存储集群。

那么，什么是分布式数据库或者分布式存储集群呢？

分布式数据库或者分布式存储集群是使用计算机网络，将网络上不同地点中多个计算机上的数据库连接起来组成的一个逻辑上统一的大型数据库，这个大型数据库能力更强，速度更快。

前文提过，一旦数据量达到PB/EB级别，对存储空间的要求是巨大的，比如淘宝、京东、百度等大型互联网企业每时每刻都在产生各类海量数据，为了节约成本，互联网企业通常将这些海量数据就近存储在全国不同城市的数据库中，但用户在网站查询、搜索信息时，感觉上并没有什么差异，好像数据都集中汇聚在同一地点似的，非常快捷便利，这就是运用的分布式数据库或者分布式存储集群组成的大型数据库带来的效果。

大数据处理流程三：分析统计

对大数据进行分析统计，就需要利用大型数据库对存于其内的海量数据进行初步的分析和分类，以满足常见的需求。比如：一个企业产品销路不好，那么老板可能会问：“是不是价格太高了？”，“是不是竞争对手营销策略更好？”等等。这就需要根据这个明确的需求在大型数据库中进行针对性统计分析。针对大数据分析所用的技术包括探索性数据分析技术、描述统计法、数据可视化等。

大数据处理流程四：挖掘

与分析统计过程不同，数据挖掘一般没有什么明确的需求，主要是基于现有数据进行计算，从而起到预测效果，实现一些高级别数据分析的需求。比如美国沃尔玛超市管理人员分析销售数据时，发现了一个令人难以理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品，会经常出现在同一个购物篮中，且大多出现在年轻的父亲身上。沃尔玛超市根据挖掘出的这一数据现象，将啤酒与尿布摆放在相同区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物，从而极大提升了商品销售收入。

数据挖掘整体过程算法复杂，涉及到的数据和计算量都很大。常用的技术有：神经网络方法、决策树方法、聚类分析等。