大模型基准测试名词说明
- MMLU (Massive Multitask Language Understanding):
测试模型在多任务语言理解上的表现,覆盖多个领域的知识,包括历史、科学、数学等。结果通常以正确回答问题的百分比形式展示。 - BBH (Big-Bench Hard):
是一组更具挑战性的语言理解任务,涉及推理、推断和常识等高难度问题,通常是为了评估模型的深层推理能力。 - MT-Bench (Multi-Turn Bench):
测量多轮对话的性能,评估模型在复杂对话中的表现。 - IFEVAL (Prompt Strict-Acc.):
一种对指令精确理解能力的测试,通常评估模型是否能够按照精确要求生成或理解指令。 - CMMLU (Chinese Massive Multitask Language Understanding):
类似于 MMLU,但是专门用于评估模型在中文多任务语言理解上的表现。 - CEVAL:
用于测试模型在中国教育考试相关问题上的表现,评估模型在中文环境下对学术类问题的掌握程度。 - AlignBench v1.1:
评估模型的对齐能力,测试它是否能够根据特定的用户输入或要求做出合适的响应。 - FollowBench-zh (SSR):
这个测试评估模型是否能够顺利跟随用户的指令进行对话或任务执行。 - MATH:
评估模型在数学问题上的表现,测试它是否能够解决复杂的数学问题。 - GSM8K (Grade School Math 8K):
测试模型在小学级别数学问题上的表现,考察它在解决常识性数学问题上的能力。 - MathBench:
综合评估数学领域问题的一个基准,涉及多个难度级别的数学问题。 - HumanEval+:
专门用于评估代码生成任务,衡量模型编写准确和可运行代码的能力。 - MBPP+ (Multiple Big Programming Problems):
类似于 HumanEval,但针对更多编程任务的评估基准。 - LiveCodeBench v3:
评估模型在实时编程和代码调试任务中的表现。 - BFCL v2 (Benchmark for Function Call Logic):
测试模型在生成函数调用和理解逻辑函数调用的能力。
Overall Average 则是所有这些测试结果的加权平均分,反映了模型整体的表现。