|
|
51CTO旗下网站
|
|
移动端

5个大数据处理/数据分析/分布式工具

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

作者:中公优就业来源:今日头条|2018-08-24 10:28

1.Hadoop

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

5个大数据处理/数据分析/分布式工具

2.Druid

Druid是实时数据分析存储系统,Java语言中***的数据库连接池。Druid能够提供强大的监控和扩展功能。

Druid是一个分布式的、面向列的、实时的分析数据存储库,通常用于为多租户环境中的探索性仪表板供电。

Druid作为一种数据仓库解决方案,擅长于对petabyte大小的数据集进行快速聚合查询。Druid支持各种灵活的过滤器、精确计算、近似算法和其他有用的计算。

Druid可以同时加载流数据和批处理数据,并与Samza、Kafka、Storm、SPark和Hadoop集成。

5个大数据处理/数据分析/分布式工具

3.Ambari

大数据平台搭建、监控利器;类似的还有CDH

Ambari能够:

提供Hadoop集群

  • Ambari为在任意数量的主机上安装Hadoop服务提供了一个逐步向导。
  • Ambari处理集群Hadoop服务的配置。

管理Hadoop集群

  • Ambari为整个集群提供启动、停止和重新配置Hadoop服务的中央管理。

监视Hadoop集群

  • Ambari为监视Hadoop集群的健康状况和状态提供了一个仪表板。
  • 安巴里杠杆Ambari度量系统用于度量集合。
  • 安巴里杠杆Ambari警报框架用于系统警报,并在需要注意时通知您(例如,节点下降,剩余磁盘空间较低等)。

5个大数据处理/数据分析/分布式工具

4.Spark

一个快速通用的集群计算系统.它在Java、Scala、Python和R中提供了高级API,并提供了支持通用执行图的优化引擎。大规模数据处理框架(可以应付企业中常见的三种数据处理场景:复杂的批量数据处理(batch data processing);基于历史数据的交互式查询;基于实时数据流的数据处理,Ceph:Linux分布式文件系统。

5个大数据处理/数据分析/分布式工具

5.Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。

5个大数据处理/数据分析/分布式工具

【编辑推荐】

  1. 大数据时代如何使用数据分析来找女朋友?
  2. Uber***定位系统实时数据分析过程实践!
  3. IDC:2022年大数据和业务分析解决方案将达到2600亿美元
  4. 关于数据分析那些事,看这一文章就够了
  5. 8个Python高效数据分析的技巧
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢
24H热文
一周话题
本月获赞

订阅专栏+更多

16招轻松掌握PPT技巧

16招轻松掌握PPT技巧

GET职场加薪技能
共16章 | 晒书包

289人订阅学习

20个局域网建设改造案例

20个局域网建设改造案例

网络搭建技巧
共20章 | 捷哥CCIE

645人订阅学习

WOT2019全球人工智能技术峰会

WOT2019全球人工智能技术峰会

通用技术、应用领域、企业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。
共50章 | WOT峰会

0人订阅学习

读 书 +更多

程序设计实践双语版

程序设计实践并不只是写代码。程序员必须评论各种折衷方案,在许多可能性之中做出选择、排除错误、做测试和改进程序性能,还要维护自己或其...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客