SUPER_GLUE数据集

2025-9-22 16:00| 发布者: admin| 查看: 78| 评论: 0

摘要: 超级 GLUE (https://super.gluebenchmark.com/) 是一个沿袭了 GLUE(通用语言理解评估)风格的集合,它包含了一系列更富挑战性的英语语言理解任务及一个新的公开排行榜。超级 GLUE 包含了 BoolQ、CB、COPA、MultiRC ...

超级 GLUE (https://super.gluebenchmark.com/) 是一个沿袭了 GLUE(通用语言理解评估)风格的集合,它包含了一系列更富挑战性的英语语言理解任务及一个新的公开排行榜。超级 GLUE 包含了 BoolQ、CB、COPA、MultiRC、ReCoRD、RTE、WiC、WSC 八个子数据集。更多详情请参阅论文:https://w4ngatang.github.io/static/papers/superglue.pdf

子数据集介绍

BoolQ

BoolQ(布尔问题)是一个 QA 任务,每个实例包含一小段文本和一个关于该段落的“是/否”问题。这些问题由谷歌搜索引擎的用户匿名提供,并与含有答案的维基百科文章段落配对。

数据格式示例

段落:
Barq’s – Barq’s 是一种美国软饮料。它的根啤酒品牌以其含咖啡因而著称。Barq’s 由 Edward Barq 创造,自 20世纪初开始瓶装,归 Barq 家族所有,但由可口可乐公司瓶装。直到 2012 年,它被称为 Barq’s Famous Olde Tyme Root Beer。

问题: is barq’s root beer a pepsi product

答案: No

详情

训练集开发集测试集任务类型度量标准
BoolQ942732703245问答准确率

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='boolq', split='train')
validation_data = MsDataset.load('super_glue', subset_name='boolq', split='validation')

CB

CB(CommitmentBank)是一个短文本语料库,每个样本包含两部分:一个包含嵌入子句的前提文本和对该子句真实性的假设。每个嵌入语句都标注了作者对其真实性承诺的程度,且数据集仅采用注释者间一致性超过 80% 的子集。因数据不平衡(中立样本较少),该数据集采用准确率和 F1 分数评估,对于多分类 F1,计算各分类 F1 的未加权平均。

数据格式示例

文本:
B: 而且,呃,我,我希望看到基于雇主的,你知道,帮忙。你知道,孩子的,呃,托儿所在工作地点之类的,这会有帮助。A: 嗯哼。B: 你觉得怎么样,你觉得我们是在,设定趋势吗?

假设: 他们正在设定趋势

蕴含: 未知

详情

训练集开发集测试集任务类型度量标准
CB25057250自然语言推理准确率 / F1

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='cb', split='train')
validation_data = MsDataset.load('super_glue', subset_name='cb', split='validation')

COPA

COPA(合理选择的替代品)是一个因果推理任务,每个例子提供一个前提句子,要求从两个可能的选择中确定原因或结果。示例源自博客和摄影相关百科全书,评估标准为准确率。

数据格式示例

前提: 我的身体在草地上投下了一片阴影。

问题: 这是什么的原因

备选方案 1: 太阳正在升起。

备选方案 2: 草被割了。

正确备选方案: 1

详情

训练集开发集测试集任务类型度量标准
COPA400100500问答准确率

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='copa', split='train')
validation_data = MsDataset.load('super_glue', subset_name='copa', split='validation')

MultiRC

MultiRC(多句阅读理解)是一个 QA 任务,每个示例包含上下文段落、关于该段落的问题及可能答案的列表。模型需预测哪些答案正确,哪些错误。MultiRC 设计特点包括:

  • 每个问题可有多个正确答案,故每个问答对需独立评估;
  • 解答每个问题需从多个上下文句子中抽取信息;
  • 与流行的跨度提取 QA 格式相比,其问答格式更贴近超级 GLUE 中的其他任务。

数据集涵盖七个领域,如新闻、小说和历史文本等。评估指标为所有答案选项的 F1a 及每个问题答案集的完全匹配度(EM)。

段落: 苏珊想举办一个生日派对。她给所有的朋友打了电话。她有五个朋友。她妈妈说苏珊可以邀请他们所有人来参加派对。她的第一个朋友不能去派对,因为她生病了。第二个朋友要出城。第三个朋友不确定她的父母是否会让她去。第四个朋友说可能会去。第五个朋友肯定能去派对。苏珊有点难过。到了派对那天,五个朋友都来了。每个朋友都给苏珊准备了一份礼物。苏珊很开心,第二周给每位朋友寄了一张感谢卡。

问题: 苏珊的生病的朋友康复了吗?

候选答案: 是的,她康复了 (T), 不是 (F), 是的 (T), 不,她没有康复 (F), 是的,她参加了苏珊的派对 (T)

详细信息

训练开发测试任务指标
MultiRC51009531800问答F1a / EM

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='multirc', split='train')
validation_data = MsDataset.load('super_glue', subset_name='multirc', split='validation')

ReCoRD

ReCoRD(具有常识推理的阅读理解数据集)是一个多项选择的问答任务。每个实例包含一段新闻文章和一个关于文章的完形填空式问题:文章中的一个实体被隐藏。模型需要从提供的段落中给出的可能实体列表中预测被隐藏的实体,其中同一实体可以用多种不同的形式表示,所有这些都被视为正确。文章来源于CNN和每日邮报。该数据集采用最大(所有提及)token级F1和完全匹配(EM)进行评估。

数据格式示例

段落: (CNN)波多黎各周日以压倒性多数投票支持成为美国的一个州。但唯一能批准新州的国会最终将决定这个美国领土的地位是否改变。根据州选举委员会的官方结果显示,无约束力公投中有97%的选票支持成为州,这一比例高于2012年公投的结果。这是就州地位举行的第五次投票。“今天,我们波多黎各人民正在向美国国会……以及全世界……发出一个强烈而明确的信息……要求作为美国公民应享有的平等权利,”波多黎各总督里卡多·罗塞洛在一份新闻稿中说。@highlight 波多黎各周日投票支持成为美国的一个州

查询: 首先,当讨论总统时,他们可以诚实地说道,“别怪我,我没有投票给他们,”

正确实体: 美国

详细信息

训练开发测试任务指标
ReCoRD101k10k10k问答F1 / EM

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='record', split='train')
validation_data = MsDataset.load('super_glue', subset_name='record', split='validation')

RTE

RTE(识别文本蕴含)数据集源自关于文本蕴含的年度竞赛系列,也是GLUE子数据集之一,其格式与GLUE中保持一致。该数据集合并了RTE1、RTE2、RTE3、RTE5,并转化为二分类任务:蕴含/不蕴含。

数据格式示例

文本: 达娜·里夫,演员克里斯托弗·里夫的遗孀,据克里斯托弗·里夫基金会称,因肺癌去世,享年44岁。

假设: 克里斯托弗·里夫出了事故。

蕴含: 错误

详细信息

训练开发测试任务指标
RTE2500278300自然语言推理准确率

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='rte', split='train')
validation_data = MsDataset.load('super_glue', subset_name='rte', split='validation')

WiC

WiC(词在上下文中的含义)是一个词义消歧任务,表现为句子对的二分类问题。给定两个文本片段和一个在两个句子中出现的多义词,任务是判断这个词在这两个句子中是否具有相同的含义。句子来源包括WordNet、VerbNet和维基词典。数据集使用准确性进行评估。

数据格式示例

上下文1: 房间和膳食。

上下文2: 他在窗户上钉上了木板。

意义匹配: 错误

详细信息

训练开发测试任务度量标准
WiC60006381400词义消歧准确率

数据集加载方式

from modelscope.msdatasets import MsDataset
train_data = MsDataset.load('super_glue', subset_name='wic', split='train')
validation_data = MsDataset.load('super_glue', subset_name='wic', split='validation')

WSC

WSC(Winograd Schema Challenge)在GLUE中作为NLI任务出现,也称为WNLI。在GLUE上,机器与人类表现之间仍存在6%的差距,这一差距相对难以缩小。因此,WSC被转换为一个二元分类任务,其中每个实例包含一个带有标记代词和名词的句子,任务是判断该代词是否指代该名词。训练和验证样本源自原始WSC数据及Commonsense Reasoning附属机构发布的数据。测试样本来自小说书籍,由原始数据集的作者提供。数据集使用准确性进行评估。


路过

雷人

握手

鲜花

鸡蛋