8620-84511745

Hadoop/Spark

处理超大规模数据的分布式计算平台

Hadoop/Spark

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。目前已经成为了全球最流行的大数据计算框架。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了高容错的分布式存储,运行在低成本的硬件上。MapReduce为海量的数据提供了计算框架,用户不需要了解分布式系统的底层细节,就可以开发分布式计算程序。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5、低成本。与一体机、商用数据仓库和数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Spark

Spark是云计算领域中继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持交互查询、流计算、图计算等。 Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行,Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中,具有非常好的易用性。

适用场景和专业服务

适用场景

Hadoop/Spark适用于企业搭建分布式计算平台,处理超大规模的数据计算(PB级),基于低成本的x86服务器。

专业服务

云本开源为企业提供Hadoop集群快速部署、调优、日常运维、紧急现场服务、巡检、 Bug的跟踪和修复、功能模块定制等专业服务。