2024.1.8 Day04_SparkCore_homeWork

目录 1. 简述Spark持久化中缓存和checkpoint检查点的区别 2 . 如何使用缓存和检查点? 3 . 代码题 浏览器Nginx案例 先进行数据清洗,做后续需求用 1、需求一:点击最多的前10个网站域名 2、需求二:用户最喜欢点击的页面排序TOP10 3、需求三:统计每分钟用户搜索次数 学生系统案例 4. RDD依赖的分类 5. 简述DAG与Stage 形成过程  DAG :   Stage : ...

2024.1.7 Spark SQL , DataFrame

目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同   三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame  SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分  Schema:元数据信息 特点: 融合性 ,统一数据访问,hive兼...

2024 .1.7 Day05_Spark_HomeWork; Spark_SQL

目录 1. 简述Spark  SQL与HIVE的对比 2. Spark SQL是什么? 3.代码题 需求1 直接基于DataFrame来处理,完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 4.创建Spark DataFrame的几种方式? 5.  创建得到DataFrame的方式有哪些,各自适用场景是怎么样的?                 3.1 text方式读取:...

2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度

词处理 二 . RDD持久化          1. 使用缓存:          2. RDD的checkpoint检查点:         3. 缓存和 checkpoint的区别:   三 . Spark内核调度         1.RDD依赖         2. DAG 和 Stage          3.shuffle阶段          4.JOB调度流程          5. Spar...

Spark精讲】性能优化:并行度

Reduce端并行度 RDD: 参数:spark.default.parallelism手动:groupByKey(10),10即为并行度Spark SQL: 参数:spark.sql.shuffle.partitionsHive on Spark: Map端加载数据的并行度 textFile等算子加载数据源,如果指定了minPartitions,如果最终切分的split数据大小小于blockSize,则会...

2024.1.4 Spark Core ,RDD ,算子

,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性    Distrbuted分布式        Dataset数据集 1. rdd是Spark底层的数据结构  2. Task 在Spark中就是线程  3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少   ,set Master local里设置的就是线程 4. 使用 sc...

Spark精讲】RDD缓存源码分析

Int) extends BlockId { override def name: String = "rdd_" + rddId + "_" + splitIndex} 在executor端调用SparkEnv.get.blockManager.getOrElseUpdate()方法, /** * Gets or computes an RDD partition. Used by RDD.itera...

Spark精讲】SparkSQL Join选择逻辑

SparkSQL Join选择逻辑  先看JoinSelection的注释 翻译下就是: 如果是等值join,就先看join hints,顺序如下  broadcast hint:join类型支持的话选择broadcast hash join,如果join的两边都有broadcast hint,选择小的(基于统计)一方去广播sort merge hint:如果join的key是可排序的,选择sort mer...

2024.1.3 Spark on Yarn部署方式与工作原理

目录 Spark集群类型有以下几种: Spark的部署方式有以下几种: Spark on YARN的部署方式有两种:client模式和cluster模式。 Spark底层的工作原理,执行流程 Spark集群类型有以下几种: Standalone模式:这是Spark自带的一种集群管理模式,可以在单个机器上启动一个Spark集群,适用于开发和测试环境。YARN模式:这是一种分布式资源管理器,可以与Hadoop集...

2024.1.3 Spark架构角色和提交任务流程

  目录   一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2.  Spark on Yarn 三. Spark 比MapReduce执行效率高的原因 四.Spark的排序算子 一 . Yarn的角色回顾 资源管理层面         集群资源管理者(Master) : ResourceManager         单机资源管理者(Worker) : ...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.005201(s)
2024-03-29 17:09:13 1711703353