《云计算与大数据处理》课程大作业评分表

目 录

(说明:目录由系统自动生成。打印时删除此说明文字)

第一章 概述

1.1 任务概述

1.2 数据集描述

第二章 生成模拟数据集

2.1 目标

2.2 实现思路

2.3 实现代码

第三章 功能实现

3.1 功能1实现

3.2 功能2实现

3.3 功能3实现

第四章 运行及测试

4.1 编译运行

4.2 测试

4.3 打包执行

第一章 概述

说明:

  1. 每一章每一节,可以加上自己的理解,尽量丰富内容。

  2. 在功能上可以根据自己的能力增加一些功能。

  3. 本文档所有说明性文字,在打印之前都应该删除掉。

  4. 本文档只提供了基本的模板,每章都可以根据自己实现的功能和理解增加一些章节,每节都应该尽量丰富内容。

1.1 任务概述

题目:电影搜索引擎

功能:根据文档数据集,模拟用户输入一个电影关键

词后,搜索到哪些文档

1.2 数据集描述

用Java语言编写程序,按以下格式要求生成一个较大的模拟数据集

(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.

第二章 生成模拟数据集

如果是对现成的数据集作了清洗,则改成“数据清洗”。

2.1 目标

用Java语言生成一个较大的模拟数据集,达到模拟海量数据的效果。

2.2 实现思路

生成模拟数据集:用C+、Java、Python等语言编写程序,按以下格式要求生成一个较大的模拟数据集(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.…

注意:关键词D1:6,表示关键词D1这一列的值为

6(即出现次数)

2.3 实现代码

第三章 功能实现

本章对每一个功能,详细描述其实现原理,实现方法,实现代码,尽可能图文并茂。

3.1 功能实现

HBase编程:编写Java程序,实现本题功能,即在HBase中创建一个表doc,把数据集中的数据全部插入到doc表,然后再输入一个电影关键词,按以下格式输出查询结果。尽可能详细描述程序的编译、在IDE环境下测试、打包、执行完整过程,附相应的截图及程序执行结果文档ID1:出现次数文档ID2:出现次数文档ID3:出现次数

实验结果:

【大数据实训】用Hbase模拟电影搜索引擎(四)-LMLPHP

第四章 运行及测试

本章详细描述完整程序的编译、测试、打包、执行过程,要附截图。

根据实际情况修改每一节标题。

4.1 编译运行

点击执行 开始模拟数据集,并根据关键词搜索信息

【大数据实训】用Hbase模拟电影搜索引擎(四)-LMLPHP

【大数据实训】用Hbase模拟电影搜索引擎(四)-LMLPHP

4.2 测试

运行结果

【大数据实训】用Hbase模拟电影搜索引擎(四)-LMLPHP

4.3 打包执行

get ‘nlp_graph:doc’,’1’

【大数据实训】用Hbase模拟电影搜索引擎(四)-LMLPHP

09-10 23:10