spark平台基本组成(spark安装详细教程)

2022-07-18,,,,

提起大数据技术,我们常常会想到大数据技术所需要的生态平台hadoop和spark,其中的spark的概念及学习路线是如何的呢?一起来跟小编看看吧~

一、spark概念

1、spark描述

apache spark是专为大规模数据处理而设计的快速通用的计算引擎。

spark是一种与hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使spark在某些工作负载方面表现得更加优越,因为spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

spark是在scala语言中实现的,它将scala用作其应用程序框架。

spark和scala能够紧密集成,其中的scalable可以像操作本地集合对象一样轻松地操作分布式数据集。

2、spark特点

① 高级api将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点放在应用程序需要执行的计算本身。

② spark速度快,支持交互式计算和复杂算法。

③ spark是一个通用的引擎,它可以用来完成各种操作,包括sql查询、文本处理、机器学习等,在spark出现之前,我们一般需要学习各种引擎来处理这些需求。

二、spark学习路线

spark的学习路线可以分成编程语言、linux、spark三个阶段来学习。

1、编程语言

学习spark主要学习java和scala这两种编程语言。

① java学习:javase基础语法、java面向对象、javase api、线程、网络编程、反射基本原理。

② scala学习:scala基础语言、scala类、scala对象、scala特征、scala模式匹配,其中需要重点掌握scala的trait、apply、函数式编程、泛型、逆变与协变等。

2、linux

spark是基于linux系统开发并运行的,因此需要学习linux系统。

linux:linux基础知识、centos、maven。

3、spark

在spark阶段中主要学习spark编程模型、spark内核、sparksql、sparkstreaming。

① spark编程模型:spark模型组成、spark弹性分布式数据集rdd、spark转换transformation、spark操作actions。

 spark内核:spark专业术语定义、spark运行原理、spark运行基本流程、spark运行架构特点、spark核心原理透视、spark运行模式、standalone运行模式、yarn-client运行模式、yarn-cluster运行模式。

 sparksql:sparksql概念、overview、sparksql程序开发数据源、sparksql程序开发dataframe、sparksql程序开发dataset、sparksql程序开发数据类型。

④ sparkstreaming:spark streming概念、spark streaming执行步骤、sparkstreaming程序开发dstream的输入源、sparkstreaming程序开发dstream的操作、sparkstreaming程序开发程序开发–性能优化、sparkstreaming程序开发容错容灾。

spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到spark的概念及学习路线了吗?

《spark平台基本组成(spark安装详细教程).doc》

下载本文的Word格式文档,以方便收藏与打印。