近几年,互联网行业发展风起云涌,“大数据”炙手可热,大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。它对于推动信息产业创新、改变经济社会管理面貌等方面也意义重大。你对大数据的了解有多少?希望本专题可以帮到你。

头条推荐

大数据热中的冷思考

近年来涌现的一些新的大数据技术的确促进了数据处理能力的大幅提高,但也应该注意的是,伴生着大数据的发展也产生了一些不良现象,比如:炒作概念,无中生有;似懂非懂,滥用数据;盲目跟风,浪费资源等。这些不良现象应引起我们足够的重视。……>>详细

【哈佛商评】关于数据分析,管理者的四个

有关数据和数据分析的高谈阔论比比皆是。不断有人告诫各大公司要规划恰当战略来收集分析大数据,并警告不这么做可能带来的不良后果。像《华尔街日报》近日就提到公司享有客户数据这样一个大宝藏,却大都不知道该如何利用。本文将探讨其中缘由。有公司尝试从巨大的数据中获取实际可用的信息,通过与他们合作,我们归纳了管理者在数据应用上的四个常规错误。

错误一:没有理解融合的概念

阻碍大数据发挥价值的第一大挑战就是兼容性和融合性。大数据的一个主要特点是其来源多样。然而,如果数据形式不相同,或难以整合,则其来源的多样性将使公司难以削减开支,也无法为客户创造价值。例如,在我们和一个合作项目中,该公司拥有丰富的数据,记录客户的交易量和忠诚度,以及专门的在线浏览行为数据,但是鲜少交叉检索这两类数据来判断某种浏览行为即为交易达成的前兆。面对这种挑战,公司创建了“数据湖”来容纳大量非结构性数据。但是,这些公司能够加以利用的数据目前都显得杂乱无章,只不过是一些以文本,也就是说,当这些数据只是普通的二进制数字时,要将它们井然有序地存储起来非常困难。要将来源不同的它们整合起来更是难上加难。

阅读全文

大数据和实时分析的算法分类

如今,大数据技术的发展和进步开辟了收集和传输大量的数据更有效的新方式。这场革命促进了实时算法和方法的研究和发展。传统上,机器学习算法并不是专为实时处理而设计的。事实上,数据的科学竞赛(如Netflix,Kaggle)由于算法昂贵,并且不切实际的使用,并且计算量很大,这往往屡受诟病。这是植根于感知的准确性是更重要的,该算法的速度作为原始设置的数据挖掘是离线的,往往是分批计算。大数据的出现使其开始有了改变,随着越来越多的算法涌现,对一个可扩展的方式重新考虑。大多数时间的可扩展性,单独不妥协的算法的准确性,作为计算其本质上是相同的。大数据分析的实时处理带来了一个更根本的变化,因为它限制了可以在这种情况下可以采用的算法的计算复杂度。一个实时的流媒体算法应该满足以下条件:它应该在一次处理一个例子中,最多检查它一次,使用有限的内存量,在有限的时间内工作,并随时在任何时候进行预测。

为了满足这些要求,流媒体算法设计成为了一种时尚,一个学习的模型不断更新,以反映来自流媒体传入的例子。在处理一个传入的例子后,无论数据稀疏,能够产生预测的算法是必需的。对于流数据的前沿方法有来自许多不同的方向,在网上学习,随机线性代数,云计算的分布式的优化方法,甚至直到多类噪音和杂散数据的存在分类问题。一般来说,这些方法并不是特别有效,但预测的某些部分可能基于预先计算的模型。事实上,离线在线周期是一个传统机器学习和实时分析之间的良好折衷,因为它推动其通过该方法的在线部分,并作为新的观测进来细化模型离线的方法。

增量学习算法代表发适合于实时分析所提出的要求的一种方法。从本质上说,这些算法有一个离线的核心模型,可以回顾历史数据,进行新的观察,并逐步进入模型。为了保持模型的快速增量更新,这只是部分更新基于概念漂移是在流的检测模型,然后在预定的时间开始全面更新脱机。这使系统对新的观察迅速作出反应,这是速度和准确性之间的妥协。要注意,这取决于所采用的算法的类型,有可能更新到充分建模,在这种情况下,没有必要保持一个离线部分的算法。事实上,这使得增量算法的在线学习算法的主要标准是它是否能够更新模型,并产生实时的预测。

阅读全文

数据分析师的能力和工具体系

之前我在回答里写过,数据分析师和圣骑士职业很相似,都需要“门门通”。最近,我尝试对数据分析师的能力和工具体系进行梳理,以下内容为一家之言,仅供参考。

数据分析师的能力体系

如下图:

阅读全文

常用大数据术语一览表

 大数据有许多新术语,有时不好理解。因此,我们列出了一份大数据术语表,以便大家深入了解。当然,这份大数据术语表并不是百分之分全面,要是你认为遗漏了什么术语,请告知我们。

A

聚合-搜索、收集和显示数据的过程。

阅读全文

热点推荐

大数据之父舍恩伯格:大数据
大数据之父舍恩伯格说:“如果信息隔绝,就无法实现大数据带来的洞见,让你…
Hadoop大数据系统的七大危险
大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部…
帮助企业开始采用大数据的7
几乎每一个行业厂商都希望过渡到一个数据驱动的方法。不过,虽然许多企业擅…
Hadoop的过去、现在和未来
Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时…
数据湖的四个最佳实践
对想要更充分地利用大数据的许多公司来说,数据湖是一种仍在不断完善的方法…
数据挖掘的入门概念
本文将对数据挖掘以及相关知识做一个基本的介绍。…

实用技巧

终极对决:R 与 Excel 在数
Excel是一款不错的数据分析工具,但是,如果你只有这一款工具,则会大大影…
数据科学中最好的5个机器学
机器学习API隐藏了创建和部署机器学习模型的复杂性,让开发者能够专注于数…
大数据背后的神秘公式(上):
大数据、人工智能、海难搜救、生物医学、邮件过滤,这些看起来彼此不相关的…
大数据背后的神秘公式(下):
贝叶斯公式在联邦党人文集作者公案和天蝎号核潜艇搜救中大显身手后(详见大…
大数据项目实践:基于hadoop
针对医疗IT系统现状,思考拟利用医院现有的历史就诊记录、处方、诊断、病历…
用Python挖掘Twitter数据:
这是7部系列中的第1部分,注重挖掘Twitter数据以用于各种案例。这是第一篇…

厂商新闻

从数据来源、数据生态、数据
目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一…
WOT2016 郭炜:如何巧用数据
WOT2016移动互联网技术峰会即将于2016年8月26-27日在北京粤财JW万豪酒店隆…
百分点:数据决策力决定企业
日前,在中国电子信息产业发展研究院主办的中国大数据产业生态大会暨中国大…
2016中国大数据企业排行榜发
2016年7月14号,首席数据官联盟在京发布了2016年《中国大数据企业排行榜》…

投    票

专题推荐

大数据的时代已经来临,如何利用大数据技术帮助企业拓展业务、提升管理效率,已经成为IT方案提供商追捧的热
大数据世界之旅高端访谈
大数据的时代已经来临,如何利用大数据技术帮助企业拓展业务、提升管理效率,已...
大数据能为企业带来什么?更多的订单,更低的成本,更快捷的管理,更新的业务模式。巧妙善用互联网上的大数
小团队如何玩转大数据
大数据能为企业带来什么?更多的订单,更低的成本,更快捷的管理,更新的业务模...
过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理大数据。大数据技术中最热的非Hadoop及
非要一决高下?听说Hadoop和
过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理大数据。大...
数据科学已经成为专业人士不容忽视的一大全新发展机遇,并能够为其带来相当可观的薪酬水平。与其它早已成熟
如何成为人见人爱的数据科学
数据科学已经成为专业人士不容忽视的一大全新发展机遇,并能够为其带来相当可观...

一周排行

留言评论