10-Pyspark启动与日志设置

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

spark://HOST:PORT
连接到指定的Spark单机版集群(Spark standalone cluster)master。必须使 用master所配置的接口,默认接口7077.如spark://10.10.10.10:7077
mesos://HOST:PORT
连接到指定的Mesos集群。host参数是Moses master的hostname。必须 使用master所配置的接口,默认接口是5050
PySpark启动
PySpark
local
standalone
yarn
描述
使用一个Worker线程本 地化运行Spark(默认);
连 接 到 指 定 的 Spark 单 机 版 集 群 (Spark standalone cluster)master ;
以客户端或集 群 模 式 连 接 到 yarn 集群;
(4)将此处的INFO改 为WARN
代码设置
进入编译器
(1)编辑并运行程序
(2)控制台显示设置成 功过
PySpark启动与日志设置
1、Pyspark多种模式的介绍; 2、利用Shell终端进行Pyspark多种模式的启动; 3、PySpark的日志设置;
谢谢观看
PySpark启动
以Local运行模式,启动PySpark pyspark –master local[4]
sc.master
(1)启动Local模式
(2)查看当前的运行 模式
PySpark启动
以Yarn运行模式,启动PySpark pyspark –master yarn-client
sc.master
mesos
连接到指定的 Mesos集群;
PySpark启动
关于PySpark启动的几种模式,涉及的参数说明如下图:
说明
local
使用一个Worker线程本地化运行Spark(默认)
local[k]
使用K个Worker线程本地化运行Spark
local[*]
使用K个Worker线程本地化运行Spark(这里K自动设置为机器的CPU核数)
(1)启动yarn模式
(2)查看当前的运行 模式
PySpark启动
以Standalone运行模式,启动PySpark pyspark –master spark://Spark7077
sc.master
(1)启动standalone 模式
(2)查看当前的运行 模式
PySpark启动
以Mesos运行模式,启动PySpark Pyspark –master mesos/Mesos:7077
(2)代码中使用setLogLevel(logLevel)控制日志输出
from pyspark import SparkContext sc = SparkContext("local", "First App") sc.setLogLevel(“WARN”)
文件设置
cd /usr/local/spark/conf
cp log4j.properties.template log4j.properties
(1)进入spark配置文 件目录
(2)复制log4j模板到 log4j.properties
文件设置
进入界面,修改参数。 sudo gedit log4j.properties
(3)编辑 log4j.properties
Spark大数据技术与应用 第三章
使用Python开发Spark应用
02
Pyspark启动
与日志设置
课前回顾 数据可视化概述
Python编程语言
• (1)什么是Python ; • (2)Python的语言特点有哪些; • (3)对于人工智能的了解; • (4) Python、Spark与Pyspark的关系
sc.master
(1)启动mesos模式
(2)查看当前的运行 模式
日志设置
控制日志级别,有效的日志级别包括:ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, WARN
控制日志输出内容的方式有两种。
(1)修改log4j.properties,默认为控制台输出INFO及以上级别的信息 log4j.rootCategory=INFO, console
yarn
Βιβλιοθήκη Baidu
默 认 以 客 户 端 模 式 连 接 到 yarn 集 群 , 集 群 位 置 由 环 境 变 量 HADOOP_CONF_DIR决定
Spark2.0以前,yarn分为yarn-client与yarn-cluster Spark2.0以后,设置--deploy-mode=[client/cluster]以不同模式连接到yarn集群
相关文档
最新文档