从理论到实践,基于Java的开源大数据工具

大数据
你也许会问,什么是大数据呢?最重要的是为什么它在每一个商业领域都是最新的趋势??这是一个炒作还是会继续发展??

你也许会问,什么是大数据呢?最重要的是为什么它在每一个商业领域都是***的趋势??这是一个炒作还是会继续发展??

[[148686]]

事实上,“大数据”是一个相当简单的术语,简单的说就是一个非常大的数据。有多大?答案是你无法想象。

这数据真的有如此大的规模吗?的确如此,因为这个数据无处不在。例如:用于收集天气信息的RFID传感器收集的天气信息,GPRS手机包,社交媒体网站的帖子,照片和视频,在线购买交易记录等等。大数据是一个巨大的数据可能包含我们感兴趣的每一个来源信息。

不过大数据不仅仅是简单的大小,相反大数据的主要特点是大量化(Volume), 多样化(Variety),快速化(Velocity),价值化(Value)。简称大数据的四V。让我们简要地研究其中的每一个代表什么:

大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。

多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。

价值化(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)。

然而现有的商业智能和数据仓库解决方案还不能完全支持4 V,大数据解决方案正在发展来应对这些挑战。

 
责任编辑:李英杰 来源: 新浪微博
相关推荐

2024-02-22 15:35:05

2021-01-15 13:28:53

RNNPyTorch神经网络

2019-06-17 16:47:54

网络协议DNS

2023-03-03 14:07:06

2022-03-15 15:26:16

iPhoneProMotion刷新率

2023-10-06 20:12:28

MUX VLAN网络

2012-09-13 09:52:14

大数据数据应用开源工具

2023-06-29 08:02:05

向量Attention网络

2022-09-08 11:48:08

技术债务工程师IT

2019-04-08 17:16:43

大数据开源工具

2024-02-22 08:35:49

2020-09-24 22:54:46

大数据IT技术

2013-08-22 10:56:34

大数据

2016-09-27 21:35:28

BossiesSparkTensorFlow

2014-06-04 13:20:52

大数据

2016-09-04 15:14:09

携程实时数据数据平台

2018-02-23 16:38:58

2015-06-25 13:06:48

大数据从选择到应用

2015-10-12 17:40:12

数据分析实践

2017-05-04 16:33:58

Java线程池实践
点赞
收藏

51CTO技术栈公众号