JobPlus知识库 IT 大数据 文章
驱动大数据发展的技术

每天大概有2.5百万三次兆字节的数据产生。在这种史无前例的规模中诞生并且存储的数据接下来又得被轻松地读取和分析。 然而这些数据的规模是常人难以想象的,它们通常是以泽字节(10^21),拍字节(10^15),或者艾字节(10^18)来描述。当公司收集到的数据越来越多且又要快速地读取它们时,对于技术设施的要求就变得愈发苛刻。在2000年代早期,行业分析师Doug Laney就对此现象给出了一个沿用至今的定义:三 V(three Vs),他用三个字母V(Volume、 Velocity、Variety)来描述大数据的状况,而并不仅仅是庞大的数据量。

 Volume(容量)——第一个V容量显而易见代表了大数据的纯量。它特指在公司中产生并且存储了多少数据,这些数据包括了交易信息、媒体信息、后台产生的信息。如果没有技术来容纳这些量大的数据,高效地存储它们就会成为一个问题。

 Velocity(速度)——像电子标签,传感器这样类似的新技术能极快地提升数据的流动。然而即时存储分类这些数据又是另一个有待解决的问题。

 Variety(多样性)——数据存在花八门的格式:从传统的数据库到未经分类的视频、音频、邮件或者交易信息。所有这些数据都必须被有效地整合和分层。

 以上所说的三个大数据特点让不少公司烦恼。的确,要高效、方便且经济地存储数据是一个不小的挑战。公司常常因为这类问题不能够有效地分析并且利用收集到的大数据,而这无疑是一个巨大损失。大数据有许多巨大的效用价值,例如它们能够预测用户行为。幸运的是新技术可以帮我们解决存储难题,将大数据价值最大化。以下便是一些对症下药的“黑技术”。

 ▪ 列式数据库——传统数据库一般注重横排排列而非竖列排列。虽然它们能高效地处理网上交易信息且更新速度快,但当数据量变大,不规则时,横排排列的短板就显露出来:它们将会花费巨大的时间来查询。列式数据库相反,它们只会花费最短时间来进行查询并且允许高比例压缩。而缺点也有,通常列式数据库只能批量更新,所以更新时间较长。

 ▪ 禁用SQL类型数据库或非模式化数据库——考虑使用新型数据库类型如关键值存储和文件存储,它们能高效读取分类,未分类或半分类的大量数据。这些数据库会绕过传统数据库的限制(如读写一致),具有扩充性,并且直接分配过程。

 ▪ MapReduce——分布式计算系统面对大量服务器时具有广执行扩充性。执行此计算系统时主要有两个任务-分布(Map)任务,输入的数据集转换成新的关键/值配对集;计算和执行任务(Reduce),输出一个精简的关键/值配对集。

▪ Hadoop——Hadoop是一个很受欢迎的分布式计算系统,通过开源平台来处理大数据并基于服务器组群进行过程分散。它能够很好的应对高倍的数据资源,无论是整合不同的数据以进行加工,还是读写数据库运行高强度的机器学习。

  Hadoop对付大量持续变更有用,例如天气/交通传感,社会媒体或交易数据。相比起用高端硬件设备来解决大数据,Hadoop能够在应用层侦测并且解决问题,具有良好的韧性。

 ▪ PLATFORA——作为一个简易版的MapReduce,Hadoop还是需要大量开发者知识来操作。而PLATFORA则可以自动将用户的询问列入Hadoop中,并建立一个抽象层面,以更好地来管理存储在Hadoop里的数据集。

▪ 大规模并行处理Massively Parallel Processing——(也叫做“松散环扣”或“共享零”系统),大规模并行处理是一个由200多个处理器组成的程序并行过程。每一个处理器运用自己的操作系统和记忆,应对程序的不同部分。处理器间运用信息界面来交流。

 ▪ Hive——Hive让传统智能商业应用能够在Hadoop集中进行询问。这个模式最先被Facebook研发,而现在成为了一个开源环境。Hive允许任何人在Hadoop数据集中进行询问,就像一个用户调用传统数据一样简单。这让传统智能商业应用使用者更熟悉Hadoop。

 ▪ 流分析——流分析技术能够过滤并分析来自不同地方不同格式的数据。它提供了对数据的精确认知,并设立了数据流的即时分析计算方案。有了如此划算的分析体系,商企可以在互联合作的世界有更多成功的机会。流分析可以在股市交易,财政服务或数据保护这样产业找到。

 ▪ 分布式文件系统——它允许客户端节点通过网络来读取数据,同时多位用户也可以在上面分享和存储资源文件。但客户端节点根据网络协议不可以任意读取锁定的存储,所以这也致使服务器和客户端只能有限制的文件系统读取权利。

 大部分这些技术都运用了某些云计算功能。云计算是挖掘数据潜力的关键,之前因为处理大数据的困难导致这些潜力都被浪费了。云计算能够提高效率并降低成本,甚至让许多小公司都受益于数据的强大。

 得益于计算机和互联网空前强大的能力,迅速增长的数据需要更好地存储以便方便分析和管理。而运用传统的储存方式,这些就很难实现。新的点子,想法和技术都在驱动着用户不断探索和利用大数据,许多商企都在抛弃结构凌乱的数据模式,的确因为分析和利用变得愈发困难。当解决大数据的技术在不断拓展,越来越来越高效时,公司就可以更方便的利用这些数据来创造价值了。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

¥ 打赏支持
168人赞 举报
分享到
用户评价(0)

暂无评价,你也可以发布评价哦:)

扫码APP

扫描使用APP

扫码使用

扫描使用小程序