参考

官方教程
B 站视频
文档
human-eval
Large Language Model Benchmarks
OpenCompass 大模型评测-LMLPHP

huggingface 榜单?
关系抽取、情感分析
知识语言推理
长文本生成
Agent 使用工具能力
多轮对话能力

如何评测大语言模型

对模型分类

基座模型和chat
指令跟随能力不同;
基座模型里要加prompt,chat则主要和人类对话

客观评测

问答题
多选题
判断题、分类题

主观评测

使用 gpt4 代替人类进行评测。
OpenCompass 大模型评测-LMLPHP

提示词工程

测试模型的 prompt 敏感性。

OpenCompass 大模型评测-LMLPHP

主流大模型评测框架

OpenCompass 大模型评测-LMLPHP

OpenCompass 大模型评测-LMLPHP
OpenCompass 大模型评测-LMLPHP
OpenCompass 大模型评测-LMLPHP

实战

安装 opencompass

git clone https://github.com/open-compass/opencompass.git
cd opencompass
pip install -e .

数据集准备

OpenCompass 支持的数据集主要包括两个部分

  • Huggingface 数据集: Huggingface Dataset 提供了大量的数据集,这部分数据集运行时会自动下载。
  • 自建以及第三方数据集:OpenCompass 还提供了一些第三方数据集及自建中文数据集。运行以下命令手动下载解压.(Todo, 提供自建数据集的案例)

配置——推理——评估——可视化

评估案例

每个评估任务由待评估的模型和数据集组成。

预训练模型 OPT-125M 和 OPT-350M 在 SIQA 和 Winograd 基准任务上的评估

Llama-7B

在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化

配置:这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
推理与评估:在这个阶段,OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率,但请注意,如果计算资源有限,这种策略可能会使评测变得更慢。
可视化:评估完成后,OpenCompass 将结果整理成易读的表格,并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能,此后可以在飞书客户端中及时获得评测状态报告。

问题

OpenCompass 官方提供的数据集是怎么处理我们自己的模型能力的?能够测试带 RAG 的模型效果吗?
常用于性能比较的数据集 configs/datasets 下查找
api 是如何用于测试的?

基础作业
使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能
进阶作业
使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
能不能把这个结果直接用在我们自己的实验中?

02-05 16:03