大数据:敢问路在何方?

译文
大数据
短短几年之内,大数据已经彻底改变了企业运营业务的方式——但截至目前,我们才刚刚初窥其门径。随着企业开始有意识到收集各类数据信息,其亦开始发现对这部分数据加以正确利用所能够带来的巨大潜力。

【51CTO.com快译】

短短几年之内,大数据已经彻底改变了企业运营业务的方式——但截至目前,我们才刚刚初窥其门径。随着企业开始有意识到收集各类数据信息,其亦开始发现对这部分数据加以正确利用所能够带来的巨大潜力。

一些积极迎接变革的企业发现,他们的数据实际上可能正是其掌握的最大资产。除了数据本身之外,精明的企业还能够通过分析数据内容以了解并更好地服务于自身客户,甚至能够将其中一些关键性数据出售给合作伙伴及下游厂商以赚取额外利润。举例来说,优步与Lyft等服务就能够非常准确地把握与客户出行习惯相关的数据,并将其交付至Airbnb、VRBO等其它网站。与此同时,Fitbit及其它厂商提供的健身追踪器亦能够利用用户的健康活动数据实现巨大价值。即使是与医疗卫生业务毫不沾边的苹果公司,也能够以前所未有的洞察能力审视其原生健康应用数据。

在理论层面讲,如此庞大的数据宝库将能够为B2B及B2C企业带来集中且立足实践行为的洞察结论,进而以前所未有的方式开启新的机遇大门。然而,面对着一系列重大的技术性与财务性障碍,很多企业实际上并不清楚自己的下一步大数据战略该走向何处。其已经开始在数据挖掘领域试水,但尚未制定出一套能够顺利迈进的坚实战略思路。

为何存在挑战?

截至目前,实现大数据技术承诺的最大障碍之一在于庞大的资金投入要求。从当下的情况来看,最为成功的项目往往需要耗资数百万美元,例如沃尔玛的专用数据创新实验室WalmartLabs。然而,这种项目只适用于那些世界上最为庞大的企业,其具备极为雄厚的财力与几乎无穷无尽的资源。很明显,这样的标准对于其它公司而言并不适用,或者说毫无实现的可能。

为何利用大数据技术会呈现出如此明确的资源密集型倾向?答案主要分为以下三个方面:

数据的输入速度极快,且数据来源数量亦急剧增加:移动、云应用、物联网——从用于追踪库存与设备的RF标签到一切接入网络的家用电器——当然,社交媒体亦是一大不容忽视的实时数据来源。

此类新型来源几乎全部在以非结构化或者半结构化格式交付数据,这使得传统的关系型数据库管理方案——即SQL以及几乎一切现代数据库系统的实现基础——毫无用武之地。除了收集及存储方面的挑战之外,合规性要求中的隐私与监管要求亦会带来新的复杂性层。不断发展的标准要求需要完整团队配合先进的技术、管理与维护手段方可实现。

随着在数据复杂度的日益提高,用于管理数据的具体技术方案亦变得更难于使用。Hadoop、Kafka、Hive、Drill、Storm、MongoDB以及Cassandra等开源工具外加一系列专有方案共同构成了独立且相互竞争的方案生态系统,只有具备深厚的技术操作知识方可将其真正应用在商业环境当中。事实上,此类人才资源非常稀缺,大多数非财富五百强企业都无力承担由此带来的高昂开支。

缺失之处何在?

可以看到,绝大多数企业仅仅是在努力管理并挖掘自己的存储数据集,而很难实际利用数据中的信息建立自身竞争优势。在实践性、实用性及可行性方面,企业还无法充分运用现有工具发挥数据中的可观潜能。需要明确的是,目前我们并不缺乏良好的大数据工具,事实上我们缺乏的是真正具备效率与有效性的解决方案,这种能够解决数据孤岛及高度依赖性难题的手段既匮乏又难于维护。

为什么?因为截至目前,我们的重点一直放在整合应用程序并建立各类独立工具与平台之间的连接机制,缺少这种桥梁它们将根本无法协作。举例来说,我们需要想办法对接CROM与ERP,或者将销售工具与市场营销自动化机制相整合。

这种应用到应用型方案的问题在于,其完全忽略了数据本身——这意味着数据仍然可能以分裂化、孤立化或者碎片化形式存在。即使应用程序能够彼此连接,如果其各自拥有自己的数据存储形式,那么数据亦无法实现通用。这意味着我们将面对大量不完整或者重复的数据记录,即通常所谓的“脏”数据。任何分析方法都无法利用这样的数据素材提供可靠的结论——因为数据本身就不够可靠。

我们该如何解决问题?

为了真正处理大数据——同时利用其实现洞察分析与业务增长,而非单纯进行数据收集——我们需要一套新型方案以专注于数据本身,而非应用程序。事实上,相较于应用程序级别,立足于数据层级解决集成化问题才是实现大数据项目成功的关键所在。

通过将集成与数据管理融入单一统一化平台,我们将能够构建起一套全面、简洁且具备来源中立性的数据湖,企业可将其作为单一可靠来源基础,并接受任何源或者分析应用的写入或者读取访问。除了敞开大门允许几乎一切应用出于几乎一切目的以正确方式接入正确数据之外,其还能够显著提升分析工作的效率、精度与可信度。

iPaaS就是答案?也许言之尚早……

尽管不少从业者高度提倡将iPaaS(即集成平台即服务)作为最佳解决方案,但这种自助式方案仍然会给内部团队带来沉重的复杂集成工作负担,而且相当一部分企业根本不具备相关资源或者由自身IT及业务人员管理集成化“管道”的意愿。随着新型集成化需求的快速涌现,我们很难找到顺畅可行的iPaaS方案规模扩展途径,更不用提由此带来的合规性与数据治理难题了。为业务用户提供独立于IT之外配置集成机制的能力可能对安全性及合规性造成危害,亦可能无意中导致企业遭遇信息泄露进而受到惩罚,同时此类未受IT集成策略支持的一次性实施工作还可能造成设计中需要尽可能避免的数据孤岛问题。

最后,尽管实现过程较为简单,但其在成本与可扩展能力方面存在严重局限。利用iPaaS,我们将很难为未来的发展做好打算; 在本质上,这只是一种临时性解决办法,且必须反复调整以适应需求增长与变化。

理想的解决方案:dPaaS真正实现大数据成功

值得庆幸的是,目前已经出现了一种全新的大数据管理与集成方法,且适用于任何规模的企业,并可通过高效、可管理且可扩展的方式对大数据资源加以运用。

数据平台即服务,简称dPaaS,是一套统一化多租户云平台,可通过更为灵活且以数据为中心的应用中立性方式提供集成与数据管理托管服务,从而满足几乎一切与大数据相关的需求。相较于专注于集成应用程序,dPaaS专门负责集成数据,确保跨应用数据湖读取或写入操作的简洁性、质量、可访问性以及合规性。

利用dPaaS,企业能够彻底告别数据孤岛及复杂性乃至高成本集成项目,真正随时拥抱新型应用、从坚实的数据存储库内提取信息并保持完整的数据生命周期内可视性——且享受各类内置合规性与治理能力。

下面来看其中的几项核心功能。

统一化数据管理

利用dPaaS,企业的整体数据存储库可被管理为单一全面存储集合。不同于iPaaS与应用到应用类集成方案所导致的数据孤岛、不匹配字段、缺失值、重复记录以及其它“脏”数据问题,dPaaS能够保持数据独立于应用程序之外。其创建并维持一套无模式中央存储库,同时包含指向几乎一切数据源的元数据关系,这意味着企业能够轻松地随时添加新型应用并继续保持其数据的简洁性、综合性与准确性。

内置合规性

保持对不断演变的合规性要求的持续遵循正变得愈发困难且成本高昂,这意味着我们需要投入大量资源与时间进行审计及重新认证。然而利用dPaaS,合规性能够立足数据层得到保障,这意味着由相关平台供应商负责对基础设施进行持续认证维护,从而确保以全面而非零散的方式进行监管遵循。具体来讲,dPaaS会将大部分合规性负担转移给供应商,从而更好地保障闲置与活动数据与合规要求相符。

卓越中心

dPaaS能够构建起一套集成卓越中心(简称COE),甚至使得中小型企业能够利用来自供应商的资源、知识、流程、工具乃至人才实现出色的效率并解决更为复杂的业务流程及挑战。构建内部卓越中心过去需要规模庞大的团队方可实现,但如今dPaaS能够将卓越中心作为一种常态。平台供应商负责提供专业人员、资源及工具,这意味着几乎任何规模的企业皆可利用这一综合性集成卓越中心享受到前沿技术与服务。

管理服务

与自助性iPaaS解决方案不同,dPaaS能够将大部分集成复杂性转移至平台供应商处,由后者负责处理ETL及其它用于构成集成基础的“管道”流程。这不仅能够让企业拥有更出色的成本效益水平,同时亦可简化最新技术的获取方式,帮助客户保持明确的市场竞争优势。这意味着企业客户能够将更多内部人员及预算投入到战略性项目当中,进而有力推动营收增长并强化企业的核心业务。

dPaaS的光明未来

凭借着全面的统一化数据集成与管理方案,dPaaS已经显示出光明的发展前景,足以帮助客户摆脱过去粗放的数据挖掘工作,真正迈入大数据利用阶段。而由此提供的全部工具及专业知识——以及未来发展路线图——都将帮助企业以更加高效、有效且具备成本效益的方式建立并推动大数据项目。

相较于浪费时间与精力“重新发明轮子”,企业应当利用dPaaS帮助自身建立竞争优势,同时更为准确地获取并保持市场领先性。

原文标题:What’s Next for Big Data?,原文作者:Rob Consoli

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:赵立京 来源: 51CTO
相关推荐

2010-06-25 09:01:06

2023-01-30 08:38:50

2015-07-01 10:24:15

物联网车载物联网

2020-01-21 09:10:04

AndroidGoogle 移动系统

2013-12-17 09:16:45

中国云计算大数据云计算部署

2020-10-27 10:24:31

5G

2009-05-21 16:30:09

程序员迷茫职场

2016-08-08 18:12:16

2020-09-10 17:45:24

戴尔

2012-08-08 11:10:07

云计算惠普大数据

2010-03-03 09:38:05

JavaFX

2013-03-14 08:52:19

SDN软件定义网络ONF

2019-07-11 15:02:34

边缘云云计算云环境

2010-07-27 09:24:21

2019-08-07 07:19:30

2014-08-15 13:57:56

2012-09-12 09:50:39

大数据盛大云云计算

2018-04-17 12:39:13

2009-06-24 15:45:32

VB.NET

2020-02-25 20:40:26

高等院校二本就业
点赞
收藏

51CTO技术栈公众号