目录

1. 简述什么是Spark?

2. 简述Spark的四大特点

3. 简述Spark比Mapreduce执行效率高的原因

4. 简述Spark on Yarn的两种部署模式的区别和特点

5. Spark底层工作原理是怎样的

6. RDD算子分成了哪几类,各自的特点是什么?

7. RDD的五大特性和五大特点

8. RDD中的重分区算子,以及各自特点?

9. mapPartitions和foreachPartitions分区算子,相对map和foreach有什么优点?

10. 简述Spark持久化中缓存和checkpotin检查点的区别

11. 简述DAG和Stage形成过程

12. 简述Job调度流程

13. 简述SparkSQL和Hive的对比

14. 创建得到DataFrame的方式有哪些,适用于什么场景?

15. SparkSQL中数据清洗的API有哪些,各自作用是什么?

16. 设置SparkSQL的shuffle分区数的方式有哪几种?

17. 简述基于Pandas实现UDF和UDAF函数的步骤?

18. 简述SParkSQL函数的分类

19. 简述SparkSQL底层工作流程

20. 简述消息队列的应用场景

21. 简述Kafka的架构

22. 简述Kafka 之所以具有高速的读写性能,主要有哪几个原因

23. 简述Kafka的分区和副本机制

24. 简述kafka中生产者数据分发策略

生产者产生的消息,是如何保存到具体分区上的

JAVA中的轮询分发策略 和 粘性分发策略介绍

25. 简述消息存储机制和查询机制

消息存储机制

查询机制:消费者在消费的时候,是如何找到对应offset偏移量的消息的

26. Kafka消费者的负载均衡机制

27. Kafka如何保证数据不丢失

生产者保证数据不丢失:

Broker端如何保证数据不丢失:

消费端如何保证数据不丢失:

28. Kafka中消费者如何对数据仅且只消费一次?

29. 结构化流中Sink输出模式有哪几类,各自特点是什么?

30. 结构化流中Sink输出终端常见的有哪几类,各自特点是什么?

31. 结构化流如何处理延迟到来的数据?

32. 处理小文件的操作


1. 简述什么是Spark?

2. 简述Spark的四大特点

3. 简述Spark比Mapreduce执行效率高的原因

4. 简述Spark on Yarn的两种部署模式的区别和特点

5. Spark底层工作原理是怎样的

        DAGScheduler:DAG调度器,将job任务形成DAG有向无环图和划分Stage阶段;

                TaskScheduler:Task调度器,将Task线程分配给具体的Executor执行;

6. RDD算子分成了哪几类,各自的特点是什么?

7. RDD的五大特性和五大特点

8. RDD中的重分区算子,以及各自特点?

9. mapPartitions和foreachPartitions分区算子,相对map和foreach有什么优点?

10. 简述Spark持久化中缓存和checkpotin检查点的区别

11. 简述DAG和Stage形成过程

12. 简述Job调度流程

13. 简述SparkSQL和Hive的对比

14. 创建得到DataFrame的方式有哪些,适用于什么场景?

15. SparkSQL中数据清洗的API有哪些,各自作用是什么?

16. 设置SparkSQL的shuffle分区数的方式有哪几种?

17. 简述基于Pandas实现UDF和UDAF函数的步骤?

18. 简述SParkSQL函数的分类

19. 简述SparkSQL底层工作流程

20. 简述消息队列的应用场景

21. 简述Kafka的架构

22. 简述Kafka 之所以具有高速的读写性能,主要有哪几个原因

23. 简述Kafka的分区和副本机制

24. 简述kafka中生产者数据分发策略

25. 简述消息存储机制和查询机制

26. Kafka消费者的负载均衡机制

27. Kafka如何保证数据不丢失

28. Kafka中消费者如何对数据仅且只消费一次?

29. 结构化流中Sink输出模式有哪几类,各自特点是什么?

30. 结构化流中Sink输出终端常见的有哪几类,各自特点是什么?

31. 结构化流如何处理延迟到来的数据?

32. 处理小文件的操作

01-16 09:25