spark 是什么?

Spark是一个 快速 且 通用 的集群计算平台

  • Spark扩充了流行的Hadoop的 MapReduce计算模型,所以它比Hadoop更快

  • Spark是基于内存的计算,当处理大批量的数据的时候,难免会产生中间的数据结果,那么中间的数据结果存放有两种:
    第一种 就是存放在硬盘中,但会受到写入写出的消耗
    第二种 就是存放在内存当中,所以速度非常快

  • Spark 是通用的
    Spark的设计容纳了其它分布式系统拥有的功能 如:
    批处理(例如:Hadoop),
    迭代式计算(例如:机器学习),
    交互查询(例如:Hive),
    流处理(例如:Storm) 等

Hadoop 与 Spark的区别

  • Hadoop 的应用场景
    离线处理
    对时效性要求 不高 的场景

  • Spark 的应用场景
    对时效性要求 高 的场景
    机器学习等领域




Spark 安装

官方仓库
spark下载地址
安装Spark不需要安装Hadoop

[root@sp-64 home]# mkdir myspark
[root@sp-64 home]# cd myspark/
[root@sp-64 myspark]#
[root@sp-64 myspark]# wget http://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
[root@sp-64 myspark]#
[root@sp-64 myspark]# tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz
[root@sp-64 myspark]# ll
总用量 220840
drwxr-xr-x 13 1311767953 1876110778      4096 2月  23 03:42 spark-2.3.0-bin-hadoop2.7
-rw-r--r--  1 root       root       226128401 2月  23 03:54 spark-2.3.0-bin-hadoop2.7.tgz
[root@sp-64 myspark]#

配置环境变量

[root@sp-64 bin]# pwd
/home/myspark/spark-2.3.0-bin-hadoop2.7/bin
[root@sp-64 bin]# vim /etc/profile

export SPARK_HOME=/home/myspark/spark-2.3.0-bin-hadoop2.7
export PATH=SPARK_HOME/bin:PATH

[root@sp-64 bin]#
[root@sp-64 bin]# source /etc/profile

启动 Spark

[root@sp-64 bin]# spark-shell
2018-03-20 16:55:19 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://sp-64:4040
Spark context available as 'sc' (master = local[*], app id = local-1521536125136).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.0
      /_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_161)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

到这里我需要暂停了,做为一名编辑爱好者是不应该拒绝任何的编辑语言的, 所以需要学习一下Scala

分类: 大数据

毛巳煜

高级软件开发全栈架构师

工信部备案号:辽ICP备17016257号-2