CaLM(Causal Evaluation of Language Models,以下简称“CaLM”)是上海人工智能实验室联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台。 首次从因果推理角度提出评估框架,为 AI 研究者打造可靠评测工具,从而为推进大模型认知能力向人类水平看齐提供指标参考。
因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估,上海人工智能实验室联合团队在 CaLM 中提出包含因果评估目标(Causal Target)、评估方式(Adaptation)、评估标准(Metric)及错误分析(Error)的评估框架,同时构建了超过12万道题目的中英文数据集。
基于 CaLM,联合团队首次对 28 个当前主流大模型进行了因果推理能力评测,共产生了 50 项实证性发现,本文摘录其中 6 个结论。相关论文共 315 页,可查看文末链接,或登录网页查阅下载。
CaLM 采用了一套 灵活、易扩展 的评估框架,并按照预设实施顺序进行评测:因果评估目标(Causal Target)→评估方式(Adaptation)→评估标准(Metric)→错误分析(Error)。CaLM 的评估框架设计与实施流程,还可应用于数学推理、专业知识及长文本处理等模型能力评估体系构建。
自下而上的因果评估目标
在当前普遍采用的 Judea Pearl 提出的因果阶梯理论基础上,CaLM 进一步发展并明确了四个层次的因果任务:因果发现(Causal Discovery)、关联(Association)、干预(Intervention)及反事实(Counterfactuals)。每层次任务按复杂程度进行基础到高级的顺序排列,构成了自下而上的框架。
因果发现旨在从数据或语义中推测出潜在的因果结构,关联探索数据间的统计依赖关系,干预预测有意改变环境中的变量所带来的影响,以及反事实则对假设的替代场景进行推理。针对四个任务层次,CaLM 设计了因果归因、解释移除效应、对撞偏差和反事实推理等 21 种因果场景,覆盖 COPA、CLADDER 及 CaLM-IV 等多种数据集和问题类型。
丰富的评估方式
在评估方式的选择上,CaLM 采用了基准提示、对抗性提示、思维链及上下文学习等 9 种评估方式。综合考量了评测实践过程的受众广泛性、用户易用性以及实验控制性。
全面的评估标准
针对模型、提示词以及因果场景,CaLM 中分别设置了不同的评估标准,覆盖包括准确率、鲁棒性、理解度等 7 种,全面反映模型的因果推理能力和鲁棒性、提示词有效性。越复杂的因果场景模型越难解决,从而该场景成熟度越低,因此 CaLM 同时设置了考察因果场景成熟度的评估标准。
系统的错误结果分析
CaLM 因果评测数据集
为了使因果推理能力评估有“考题”可循,联合团队构建了一套全新的评测数据集。基于四个层级的因果任务设置,涵盖了丰富的因果概念,包含超过 12 万条中英文数据。同时,研究人员还细致地将文本模态划分为日常表达(Natural)、抽象表达(Symbolic)和数学表达(Mathematical)三种子态,以考察模型在不同类型模态下的理解能力。
该数据集约 90% 的内容为全新构建,10% 来自于现有公开数据集,既能与已有公开结果进行对比,反映评估的有效性,又能避免训练集数据污染问题。
同时,为了更便捷地评估,团队还推出了CaLM Lite 版本,包含 9200 条中英文数据。该数据集目前在司南 OpenCompass 大模型能力评测体系也进行了同步公开,可以使用司南 OpenCompass 的评估套件进行快速的模型测试。
(CaLM 数据集问题类型统计概览)
CaLM 数据集题目展示
下面将选取 CaLM 中平均处理效应任务的题目进行展示。CaLM 提供了原始的因果图,条件概率,推理过程等,便于研究者进一步使用。
(CaLM 数据集题目展示)
CaLM 评测结果
针对 28 个当前主流大模型,联合团队使用了 CaLM 进行因果推理能力评测,共产生了 50 项实证性发现。
评估数据和可视化结果均已发布至 CaLM 项目主页(https://opencausalab.github.io/CaLM),同时 CaLM 数据集、评估流程和错误分析的全流程均已开源,便于产学界自主研究使用。(https://github.com/OpenCausaLab/CaLM)
(CaLM 评测结果)
目前 CaLM 已加入司南 OpenCompass 大模型能力评测体系,欢迎社区的朋友参与共建!
数据集详情链接:https://hub.opencompass.org.cn/dataset-detail/CaLM
使用 CompassKit 进行评测:https://github.com/open-compass/opencompass
司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作,携手构建一个开放、公平、透明的大语言模型评估体系,促进大语言模型技术的健康发展和持续创新。
关注「司南评测体系」公众号,获取大模型评测相关最新信息。
OpenCompass 司南评测体系主要包括以下三大模块,欢迎大家使用。
开源地址:https://github.com/open-compass
社区地址:https://hub.opencompass.org.cn/home