子数据集介绍BoolQBoolQ(布尔问题)是一个 QA 任务,每个实例包含一小段文本和一个关于该段落的“是/否”问题。这些问题由谷歌搜索引擎的用户匿名提供,并与含有答案的维基百科文章段落配对。 数据格式示例段落: 问题: is barq’s root beer a pepsi product 答案: No 详情
数据集加载方式CBCB(CommitmentBank)是一个短文本语料库,每个样本包含两部分:一个包含嵌入子句的前提文本和对该子句真实性的假设。每个嵌入语句都标注了作者对其真实性承诺的程度,且数据集仅采用注释者间一致性超过 80% 的子集。因数据不平衡(中立样本较少),该数据集采用准确率和 F1 分数评估,对于多分类 F1,计算各分类 F1 的未加权平均。 数据格式示例文本: 假设: 他们正在设定趋势 蕴含: 未知 详情
数据集加载方式COPACOPA(合理选择的替代品)是一个因果推理任务,每个例子提供一个前提句子,要求从两个可能的选择中确定原因或结果。示例源自博客和摄影相关百科全书,评估标准为准确率。 数据格式示例前提: 我的身体在草地上投下了一片阴影。 问题: 这是什么的原因? 备选方案 1: 太阳正在升起。 备选方案 2: 草被割了。 正确备选方案: 1 详情
数据集加载方式MultiRCMultiRC(多句阅读理解)是一个 QA 任务,每个示例包含上下文段落、关于该段落的问题及可能答案的列表。模型需预测哪些答案正确,哪些错误。MultiRC 设计特点包括:
数据集涵盖七个领域,如新闻、小说和历史文本等。评估指标为所有答案选项的 F1a 及每个问题答案集的完全匹配度(EM)。 段落: 苏珊想举办一个生日派对。她给所有的朋友打了电话。她有五个朋友。她妈妈说苏珊可以邀请他们所有人来参加派对。她的第一个朋友不能去派对,因为她生病了。第二个朋友要出城。第三个朋友不确定她的父母是否会让她去。第四个朋友说可能会去。第五个朋友肯定能去派对。苏珊有点难过。到了派对那天,五个朋友都来了。每个朋友都给苏珊准备了一份礼物。苏珊很开心,第二周给每位朋友寄了一张感谢卡。 问题: 苏珊的生病的朋友康复了吗? 候选答案: 是的,她康复了 (T), 不是 (F), 是的 (T), 不,她没有康复 (F), 是的,她参加了苏珊的派对 (T) 详细信息
数据集加载方式ReCoRDReCoRD(具有常识推理的阅读理解数据集)是一个多项选择的问答任务。每个实例包含一段新闻文章和一个关于文章的完形填空式问题:文章中的一个实体被隐藏。模型需要从提供的段落中给出的可能实体列表中预测被隐藏的实体,其中同一实体可以用多种不同的形式表示,所有这些都被视为正确。文章来源于CNN和每日邮报。该数据集采用最大(所有提及)token级F1和完全匹配(EM)进行评估。 数据格式示例段落: (CNN)波多黎各周日以压倒性多数投票支持成为美国的一个州。但唯一能批准新州的国会最终将决定这个美国领土的地位是否改变。根据州选举委员会的官方结果显示,无约束力公投中有97%的选票支持成为州,这一比例高于2012年公投的结果。这是就州地位举行的第五次投票。“今天,我们波多黎各人民正在向美国国会……以及全世界……发出一个强烈而明确的信息……要求作为美国公民应享有的平等权利,”波多黎各总督里卡多·罗塞洛在一份新闻稿中说。@highlight 波多黎各周日投票支持成为美国的一个州 查询: 首先,当讨论总统时,他们可以诚实地说道,“别怪我,我没有投票给他们,” 正确实体: 美国 详细信息
数据集加载方式RTERTE(识别文本蕴含)数据集源自关于文本蕴含的年度竞赛系列,也是GLUE子数据集之一,其格式与GLUE中保持一致。该数据集合并了RTE1、RTE2、RTE3、RTE5,并转化为二分类任务:蕴含/不蕴含。 数据格式示例文本: 达娜·里夫,演员克里斯托弗·里夫的遗孀,据克里斯托弗·里夫基金会称,因肺癌去世,享年44岁。 假设: 克里斯托弗·里夫出了事故。 蕴含: 错误 详细信息
数据集加载方式WiCWiC(词在上下文中的含义)是一个词义消歧任务,表现为句子对的二分类问题。给定两个文本片段和一个在两个句子中出现的多义词,任务是判断这个词在这两个句子中是否具有相同的含义。句子来源包括WordNet、VerbNet和维基词典。数据集使用准确性进行评估。 数据格式示例上下文1: 房间和膳食。 上下文2: 他在窗户上钉上了木板。 意义匹配: 错误 详细信息
数据集加载方式WSCWSC(Winograd Schema Challenge)在GLUE中作为NLI任务出现,也称为WNLI。在GLUE上,机器与人类表现之间仍存在6%的差距,这一差距相对难以缩小。因此,WSC被转换为一个二元分类任务,其中每个实例包含一个带有标记代词和名词的句子,任务是判断该代词是否指代该名词。训练和验证样本源自原始WSC数据及Commonsense Reasoning附属机构发布的数据。测试样本来自小说书籍,由原始数据集的作者提供。数据集使用准确性进行评估。 |