Spark入门学习-白红宇

Spark入门学习

阅读量：4090 次

发布时间：2019-05-25

本文共 2134 字，大约阅读时间需要 7 分钟。

1. Spark Overview（spark概述）

Apache spark是一个快速和通用的集群计算系统。它提供了Java，Scala，Python和R的高级APIs，以及支持通用执行图的优化引擎。它也支持一系列高级工具，包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLlib，用于图形处理的GraphX以及Spark Streaming。

2. Downloading（下载）

从项目网址的下载Spark。这个文档是Spark 2.2.1版本的。Spark使用HDFS和YARN的Hadoop的客户端库。下载那些少数流行的Hadoop版本预先打包的。用户也可以下载“Hadoop free”二进制文件，并通过来运行带有任何Hadoop版本的Spark。Scala和Java用户可以使用Maven配合将Spark包含在他们项目中，将来Python用户也可以从PyPI安装Spark。

如果你喜欢通过源代码编译Spark，可以查看。

Spark可以在Windows和类UNIX系统（如Linux，Mac OS）上运行。在一台机器上本地运行是很容易——你需要做的是在你系统Path上安装Java，或者通过JAVA_HOME环境变量指向Java安装目录。

Spark运行在Java8+，Python 2.7+/3.4+和R3.1+。对于Scala API，Spark2.2.1使用Scala2.11。你需要使用兼容性的Scala版本2.11.x。

注意，从Spark2.2.0开始，对2.6.5之前版本的Java7，Python2.6和旧Hadoop版本的支持已被删除。

注意，从Spark2.1.0开始，不支持Scala2.10，可能会在Spark2.3.0中删除。

3. Running the Examples and Shell（运行例子和shell）

Spark带有几个示例程序。Scala，Java，Python和R示例在example/src/main目录。在Spark根目录使用bin/run-example <class> [params]去运行Java或者Scala示例程序。（在幕后，调用脚本来启动应用程序）例如：

./bin/run-example SparkPi 10

你也可以通过Scala shell的修改版本交互地运行Spark。这是学习框架的最好方式。

./bin/spark-shell --master local[2]

--master选项指向一个分布式集群的master URL，local 指使用一个线程本地运行，local[N] 指使用N个线程本地运行。你应该使用local进行测试。有关完整的选项列表，使用--help选项运行Spark Shell查看。

Spark也提供Python API。使用bin/pyspark在Python解释器中以交互方式运行Spark：

./bin/pyspark --master local[2]

示例应用程序也在Python中提供，如：

./bin/spark-submit examples/src/main/python/pi.py 10

自从1.4开始，Spark还提供了一个实验性的R API（仅包括DataFrame APIs）。使用bin/sparkR在R解释器中以交互方式运行Spark：

./bin/sparkR --master local[2]

示例应用程序也在R中提供，如：

./bin/spark-submit examples/src/main/r/dataframe.R

4. Launching on a Cluster（在集群中启动）

Spark解释了在集群上运行的相关概念。Spark可以单独运行，也可以运行在几个现有的集群管理器上。它目前提供了几个部署选择：

：最简单的方法是在一个私有集群上部署Spark。

5. 接下来方向

项目目录：

:一个关于Spark API的快速介绍。

: Spark基础概述——RDDs（核心但旧的API），累加器和广播变量

: 通过关联查询处理结构化数据（比RDDs更新的API）

:通过关联查询处理结构化数据（使用Datasets和DataFrames，比DStreams更新的API）

: 通过使用DStreams处理数据流（旧API）

:应用于机器学习算法

:处理图像

API Docs:

部署目录：

Cluster Overview（集群概述）：当在一个集群上运行时一些概念和组件的概述

Submitting Applications:打包和部署应用

Deployment modes（部署模式）：

Amazon EC2:在EC2上大概5分钟内启动一个集群的脚本

Standalone Deploy Mode：不通过第三方集群管理器快速启动一个独立集群

Mesos:使用Apache Mesos部署一个私有集群

YARN:在Hadoop NextGen(YARN)上部署Spark（目前我在使用的模式）

Kubernetes(试验性):在Kubernetes上部署Spark

参考资料：

转载地址：http://mycii.baihongyu.com/

你可能感兴趣的文章