SparkSql - 结构化数据处理 (下)

blairchen

spark

Publish：Aug 28, 2020

views

1. spark 整合 yarn

rdd.aggregateByKey(init_value: U) ((C, U) => (C,C) => C)

Spark 2.3 on yarn的配置安装

1.1 配置 Spark 整合 YARN

把 yarn-site.xml 复制到 $SPARK_HOME/conf 目录中
在使用 spark-submit 提交任务时候请这么执行资源调度系统：

spark-submit --master yarn --deploy-mode client

但是有可能出现异常

1.2 Spark-Shell 测试

只能这么启动
spark-shell --master yarn --deploy-mode client

不能这么启动
spark-shell --master yarn --deploy-mode cluster

原因： spark-shell spark-submit driver

原来：

1 2	spark-shell spark-shell --master local[*]

1.3 Spark-Submit 测试

只能这么启动
spark-submit --master yarn --deploy-mode client

也能这么启动
spark-submit --master yarn --deploy-mode cluster

原因： spark-shell spark-submit driver

2. spark 整合 hive

2.1 Spark 自带元数据库 &

如果用户直接运行bin/spark-sql命令。会导致我们的元数据有两种状态：

1、in-memory状态:

如果SPARK-HOME/conf目录下没有放置hive-site.xml文件，元数据的状态就是in-memory，也就是使用自带的 derby 在当前会话中有效

create table student(id int, name string, sex string, age int, department string)

row format delimited fields terminated by ","

load data local inpath "/home/.."

spark-sql 在 hadoop02 和 hadoop03 中启动的时候，都各自初始化了一个元数据库

所以在 hadoop02 上创建的元数据库，在 hadoop03 上启动的 spark-sql 不能共用数据.

spark-sql 的使用有2种模式

2.2 Spark 整合hive配置

2、hive状态：

如果我们在SPARK-HOME/conf目录下放置了，hive-site.xml文件，那么默认情况下

spark-sql的元数据的状态就是hive.

Reference

updated on：Mar 31, 2024

spark

HDFS 演进之路

本节目标： HDFS 是如何实现有状态的高可用架构 HDFS 是如何从架构上解决单机内存受限问题的揭秘 HDFS 能支撑亿级流量的核心源码设计 Hadoop HDFS HDFS1 是...

Spark Shuffle Optimize 10 items

调优: 开发调优资源调优 DataSkew shuffle 今天的内容: （1）Spark Task 执行过程详细梳理（2）DataSkew 发生时的现象和原因分析（3）Dat...

Comments

Load Disqus