2024.1.8 Day04_SparkCore_homeWork
目录 1. 简述Spark持久化中缓存和checkpoint检查点的区别 2 . 如何使用缓存和检查点? 3 . 代码题 浏览器Nginx案例 先进行数据清洗,做后续需求用 1、需求一:点击最多的前10个网站域名 2、需求二:用户最喜欢点击的页面排序TOP10 3、需求三:统计每分钟用户搜索次数 学生系统案例 4. RDD依赖的分类 5. 简述DAG与Stage 形成过程 DAG : Stage : ...
2024.1.7 Spark SQL , DataFrame
目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同 三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分 Schema:元数据信息 特点: 融合性 ,统一数据访问,hive兼...
2024 .1.7 Day05_Spark_HomeWork; Spark_SQL
目录 1. 简述Spark SQL与HIVE的对比 2. Spark SQL是什么? 3.代码题 需求1 直接基于DataFrame来处理,完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 4.创建Spark DataFrame的几种方式? 5. 创建得到DataFrame的方式有哪些,各自适用场景是怎么样的? 3.1 text方式读取:...
2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度
词处理 二 . RDD持久化 1. 使用缓存: 2. RDD的checkpoint检查点: 3. 缓存和 checkpoint的区别: 三 . Spark内核调度 1.RDD依赖 2. DAG 和 Stage 3.shuffle阶段 4.JOB调度流程 5. Spar...
【Spark精讲】性能优化:并行度
Reduce端并行度 RDD: 参数:spark.default.parallelism手动:groupByKey(10),10即为并行度Spark SQL: 参数:spark.sql.shuffle.partitionsHive on Spark: Map端加载数据的并行度 textFile等算子加载数据源,如果指定了minPartitions,如果最终切分的split数据大小小于blockSize,则会...
2024.1.4 Spark Core ,RDD ,算子
,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性 Distrbuted分布式 Dataset数据集 1. rdd是Spark底层的数据结构 2. Task 在Spark中就是线程 3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少 ,set Master local里设置的就是线程 4. 使用 sc...
【Spark精讲】RDD缓存源码分析
Int) extends BlockId { override def name: String = "rdd_" + rddId + "_" + splitIndex} 在executor端调用SparkEnv.get.blockManager.getOrElseUpdate()方法, /** * Gets or computes an RDD partition. Used by RDD.itera...
【Spark精讲】SparkSQL Join选择逻辑
SparkSQL Join选择逻辑 先看JoinSelection的注释 翻译下就是: 如果是等值join,就先看join hints,顺序如下 broadcast hint:join类型支持的话选择broadcast hash join,如果join的两边都有broadcast hint,选择小的(基于统计)一方去广播sort merge hint:如果join的key是可排序的,选择sort mer...
2024.1.3 Spark on Yarn部署方式与工作原理
目录 Spark集群类型有以下几种: Spark的部署方式有以下几种: Spark on YARN的部署方式有两种:client模式和cluster模式。 Spark底层的工作原理,执行流程 Spark集群类型有以下几种: Standalone模式:这是Spark自带的一种集群管理模式,可以在单个机器上启动一个Spark集群,适用于开发和测试环境。YARN模式:这是一种分布式资源管理器,可以与Hadoop集...
2024.1.3 Spark架构角色和提交任务流程
目录 一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapReduce执行效率高的原因 四.Spark的排序算子 一 . Yarn的角色回顾 资源管理层面 集群资源管理者(Master) : ResourceManager 单机资源管理者(Worker) : ...