基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

目录 项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计数据获取网络爬虫介绍豆瓣电影数据的采集 数据预处理数据导入及环境配置Flume介绍Hive介绍MySQL介绍Pyecharts介绍环境配置及数据加载 大数据分析及可视化豆瓣影评结构化分析豆瓣电影类型占比分析豆瓣电影导演排行榜分析不同国家的电影数据分析电影演员阵容数量分析电影时长分析不同语种的电影统计分析不同时间维度下统计分析电影评价人数...

Hive中高频常用的函数和语法梳理及业务场景示例

Hive中高频常用的函数和语法梳理及业务场景示例 聚合函数 collect_list - 收集列值到一个数组 collect_list函数用于将指定列的值收集到一个数组中,并返回该数组作为结果。它通常在GROUP BY子句中使用,以将相同键的值收集到一个数组中进行聚合操作 以下是collect_list函数的语法: collect_list(column) 其中,column是要收集的列名或表达式。 c...

Hive(13):物化视图 materialized views

可以避免进行这些耗时的操作,而从快速的得到结果。使用物化视图的目的就是通过预计算,提高查询性能,当然需要占用一定的存储空间。 但是在SQL On Hadoop领域里支持这个特性的还不多,比较令人期待。Hive3.0开始尝试引入物化视图,并提供对于物化视图的查询自动重写(基于Apache Calcite实现)。值得注意的是,3.0中提供了物化视图存储选择机制,可以本地存储在hive,同时可以通过用户自定义s...

Hive(12):View视图

1 View的概念 Hive中的视图(view)是一种虚拟表,只保存定义,不实际存储数据。通常从真实的物理表查询中创建生成视图,也可以从已经存在的视图上创建新视图。 创建视图时,将冻结视图的架构,如果删除或更改基础表,则视图将失败,并且视图不能存储数据,操作数据,只能查询。 概况起来就是:视图是用来简化操作的,它其实是一张虚表,在视图中不缓冲记录,也没有提高查询性能。 2 View相关语法 --hive中...

Hive执行计划之只有map阶段SQL性能分析和解读

数和运行操作符的普通型SQL执行计划解读2.1 执行计划解读2.2 伪代码解释逻辑概述可能所有的SQLboy刚接触SQL语句的时候都是select xxx from xxx where xxx。在hive中,我们把这种语句称为select-from-where型语句,也可称为简单SQL,这类简单SQL是特指不含有变转换函数,聚合函数,开窗函数和连接操作的SQL语句。这类SQL主要特征是只有map阶段...

Hive常见时间日期函数的使用与问题整理

这里整理一下Hive常见的时间函数和日期函数和用法,作为平时数据处理过程的一个检索和记录。平时在数据处理过程中,如果不经常使用时间函数,一时间遇到一些时间上的处理,难免会想不起来。hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。接下来看一下类别的日期和时间函数的使用方式。1.时间戳和日期相互转换函数具体执行结果在后面备注标注出来...

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。问题1:那么什么是hive向量化模式呢?问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢?问题3:如何查看hive向量化使用的相关信息?1.什么是hive向量化模式hive向量化模式是hive的一个特性,也叫hive矢量化,在没有引入向量化的执行模式之前,一般的查询操作一次...

CDH 之 hive 升级至 hive-3.1.3 完美踩坑过程

一、准备工作 1.1 前言         这是博主在升级过程中遇到的问题记录,大家不一定遇到过,如果不是 CDH 平台的话,单是 hive 服务升级应该是不会有这些问题的,且升级前博主也参考过几篇相关 CDH 升级 hive 服务的博文,前面的升级步骤基本一致,但是升级过程只有我遇到了这些问题吗?显然不是的,但是其他博文都未提及出现过的问题以及如何处理和排查,特别是当升级完之后 hive metasto...

CDH 之 hive 数据迁移

当你想切换了集群想把hive迁移至新集群,两个集群之间又互不相通,一个最简单快捷的方法,就是批量导出元数据信息,同时把数据文件下载上传至新服务器的数据文件存放目录下 批量导出云数据: # database 即是数据库名称hive -e "use <database>; show tables;" | xargs -I '{}' sh -c 'hive -e "use <database>; show c...

Hive窗口函数详细介绍

文章目录 Hive窗口函数概述样本数据表结构表数据 窗口函数窗口聚合函数count()SQL演示 sum()SQL演示 avg()SQL演示 min()SQL演示 max()SQL演示 窗口分析函数first_value() 取开窗第一个值应用场景SQL演示 last_value()取开窗最后一个值应用场景SQL演示 lag(col, n, default_val):往前第n行数据应用场景SQL演示 l...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.036942(s)
2024-05-09 09:52:33 1715219553