Apache Spark是立足于内存计算的一种快速数据分析方案。其性能已经得到大家的认可,但我们该如何部署与实施Spark呢?本专题将为您介绍不同模式的Spark部署。

头条推荐

Apache Spark三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和spark on YARN。本文将介绍这三种部署方式,并比较其优缺点。……>>详细

Spark基本概念解析

1:实验配置

虚拟机cdh1(4G内存,1CPU*2CORE)

虚拟机cdh2(4G内存,1CPU*2CORE)

虚拟机cdh3(4G内存,1CPU*2CORE)

阅读全文

Spark集群部署

1. 安装环境简介

硬件环境:两台四核cpu、4G内存、500G硬盘的虚拟机。

软件环境:64位Ubuntu12.04 LTS;主机名分别为spark1、spark2,IP地址分别为1**.1*.**.***/***。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署。

2.  安装Scala2.9.3

阅读全文

Spark的Standalone模式部署

1:Spark Standalone Mode安装

A:部署包生成

首先,下载并解压缩Spark的源码,切换到解压缩所生成的目录,运行部署包生成程序make-distribution.sh:

  1. ./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz 

spark源码根目录下的make-distribution.sh可以带以下参数:

阅读全文

Spark的YARN模式部署

1:Spark的编译

Spark可以通过SBT(Scala Build Tool)或者Maven来编译,官方提供的二进制安装文件是用Maven编译,如果是要在YARN集群上运行的话,还需要再用SBT编译一下,生成YARN client端使用的jar包;最好是直接对源码使用SBT进行编译而生成YARN client端使用的jar包。笔者在测试过程中,对Maven编译过的Spark进行SBT二次编译后,在运行部分例子的时候有错误发生。

A:Maven编译

笔者使用的环境曾经编译过Hadoop2.2.0(参见hadoop2.2.0源码编译(CentOS6.4)),所以不敢确定Maven编译过程中,Spark是不是需要编译Hadoop2.2.0中使用的部分底层软件(看官方资料是需要Protobuf2.5)。除了网络下载不给力而不断的中止、然后重新编译而花费近1天的时间外,编译过程还是挺顺利的。

阅读全文

Spark On Yarn(HDFS HA)详细配置过程

 一、服务器分布及相关说明

1、服务器角色

2、Hadoop(HDFS HA)总体架构

阅读全文

将Spark部署到Hadoop 2.2.0上

本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。

需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在 Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等 (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。

注意,目前官方已经发布了0.8.1版本,可以直接从这里选择合适的版本下载,如果你使用的是hadoop 2.2.0或者CDH5,可以直接从这里下载

将Spark部署到Hadoop 2.2.0上需要经过以下几步:

阅读全文

Spark多语言编程实践

Spark目前支持scala、python、JAVA编程。

作为Spark的原生语言,scala是开发Spark应用程序的首选,其优雅简洁的代码,令开发过mapreduce代码的码农感觉象是上了天堂。

Spark提供了python的编程模型PySpark,使得python可以作为Spark开发语言之一。尽管现在PySpark还不能支持所有的Spark API,但是我们相信以后的支持度会越来越高;同时作为NOSQL的主力开发工具之一的python,一旦将NOSQL和Spark结合后,我们可以想象以后的发展前景。

至于Java,时间和精力允许的情况下再选吧。不过作为作为长期坐着写代码的码农,应该积极参加登山、会友之类的活动,为身体着想,还是不要选JAVA来编写Spark程序了。

阅读全文

Spark:利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。

(1) 准备工作

在正式介绍之前,先要以下软硬件准备:

软件准备:

阅读全文

相关内容

Spark会是大数据领域的下一
Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的…
探讨大数据如何成为安全生产
信息化一方面加速了安全生产事故信息传播速度,导致安全生产的被关注度空前…
还谈论大数据?“小数据”才
随着大数据的发展,科技产业受到深刻影响,收集和解析数据的能力在近年来突…

投    票

专题推荐

Mesos计算框架一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、
揭秘你不知道的分布式计算框
Mesos计算框架一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和...
Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的集群计算平台。 相比Hadoop MapRe
Spark会是大数据领域的下一
Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的集群...
PM2.5肆虐着中华大地,令每个中国人呼吸困难。大数据的到来,让我们的环境治理与气象预报有了更有力的工具
气象大数据吹开雾霾 自由呼
PM2.5肆虐着中华大地,令每个中国人呼吸困难。大数据的到来,让我们的环境治理...
金融大数据将给中国银行带来极大的转变。它将让银行从被动服务客户,转向更加主动的方式。主动地去探索和挖
金融大数据到来,银行你准备
金融大数据将给中国银行带来极大的转变。它将让银行从被动服务客户,转向更加主...

一周排行

留言评论