您的位置 首页 科技

谷歌大脑组合模型霸榜 SuperGLUE

【CSDN 编者按】2020 年12 月31 日,谷歌大脑的研究科学家 Adams Wei Yu 在社交媒体发布消息,宣布实现了 新的 SOTA(state of the art 即实现该领域已知的最好效果)

谷歌大脑组合模型霸榜 SuperGLUE

【CSDN 编者按】2020 年12 月31 日,谷歌大脑的研究科学家 Adams Wei Yu 在社交媒体发布消息,宣布实现了新的 SOTA(state of the art 即实现该领域已知的最好效果)

作者 | 八宝粥 责编 | 张文

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

谷歌大脑组合模型霸榜 SuperGLUE

“哦我亲爱的老伙计,感谢 ZiruiWang 先生,他及时的提交让 Google Brain 在 2020 年还能在 SuperGLUE 榜首霸占大约 12 个小时.”

谷歌大脑组合模型霸榜 SuperGLUE

展开全文

12 月 30 日,他向大家介绍了来自微软 DeBERTa 团队取得了明显进展,并在评论当中对 T5 模型进行简单的评价。

谷歌大脑组合模型霸榜 SuperGLUE

12 月 31 日,Zirui Wang 的 T5 和 Meena 结合的模型总得分 90.0 分,以 0.1 分的优势击败了 DeBERTa 团队的组合模型占据榜首。0.1 的差距看起来很小,但事实上,微软比 SuperGLUE 人类基线也之只多了 0.1 分。

谷歌大脑组合模型霸榜 SuperGLUE

SuperGLUE 是什么?

SuperGLUE 到底是什么呢?

SuperGLUE 是 Facebook 人工智能研究中心、Google DeepMind、华盛顿大学以及纽约大学在 2019 年 8 月共同推出的,用于衡量现在高性能语义理解 AI 的基准测试。它的前身是纽约大学、华盛顿大学和 Google DeepMInd 在 2018 年 4 月共同组建的基准测试 GLUE (General Language Understanding Evaluation) benchmark。

两个网站页面基本相似,他们的区别在于研究单位和评价指标不同。

SuperGLUE 的参与研究单位多了 Facebook 人工智能研究中心和三星研究院。

评价指标方面,GLUE 基准测试包含了 9 个语句理解任务。分别是

  • 单句任务(CoLA 语言可接受语料库;SST-2 斯坦福情绪树库)

  • 相似性和外派任务(MRPC 微软研究释义语料库;QQP Quora 问答;STS-B 语义文本相似性基准)

  • 推理任务(MNLI 多体自然语言推理语料库;QNLI 斯坦福问答数据集;RTE 识别文字蕴含;WNLI 威诺格拉德自然语言推理)

单句任务(CoLA 语言可接受语料库;SST-2 斯坦福情绪树库)

相似性和外派任务(MRPC 微软研究释义语料库;QQP Quora 问答;STS-B 语义文本相似性基准)

推理任务(MNLI 多体自然语言推理语料库;QNLI 斯坦福问答数据集;RTE 识别文字蕴含;WNLI 威诺格拉德自然语言推理)

在榜单当中, 由 GLUE 提供,目前排名 14 的人类性能基准 (GLUE Human baselines) 曾一度成为各大模型的头号目标。

该榜单名气之大,吸引了很多高校和名企前来挑战,不断刷新纪录,包括阿里、平安、华为等。

谷歌大脑组合模型霸榜 SuperGLUE

后来,GLUE 难度不够了,SuperGLUE 也就应运而生。

SuperGLUE 在 GLUE 的基础上增加了 Facebook 人工智能和三星研究院的支持,与此同时,它的基准测试的难度也大大提高。

谷歌大脑组合模型霸榜 SuperGLUE

两个 GLUE 的网页对比

两个基准测试在网页上并无太大差别,区别就是测试任务。

通俗来说,如果 GLUE 的难度是语言理解的“十八铜人阵”,打败 GLUE baselines 就印上青龙白虎,那 SuperGLUE 就得是“八大派围攻光明顶”,没有三五年年内功别想活着下山,SuperGLUE human baseline 89.8 分在那边守着,Google 自己家 T5 都还有差距,这个英雄榜,真的不是谁都能上的。

这些可能不太直观,举点更直接的例子,GPT-3 评分 71.8分,BERT 评分 69分。对比起来,90 分是不是就是独一档的存在?

人们一度怀疑,SuperGLUE Human Baselines 还能被超越吗?

谁占了榜首?

此前一直是 SuperGLUE Human baselines 占据榜首。

但 2020 年12 月 30 日,Google 团队的 T5+Meeena 模型和微软 DeBERTa 团队同时上榜,位列前二,得分分别是 90.0,89.9。

这也意味着,SuperGLUE Human baselines 不再是不可逾越的高峰。

仔细对比就会发现,不是挑战者太弱,是 SuperGLUE Human baselines 太强!COPA(选择合理的替代方案)满分,WSC(威诺格拉德模式挑战)满分,CB(一个短文本语料库,包含从句)98.9 分。真的很难超越。

不过,一切都很难说。2019 年,埃鲁德·基普乔格不也是跑进 2 小时,突破了人类马拉松的极限了嘛~

有兴趣的同学可以查看官方网站进行探索,也许下一个得此成就的就是你!

参考资料:

微软 DeBERTa 模型论文:https://arxiv.org/abs/2006.03654

supergluebenchmark 官网:https://super.gluebenchmark.com/

SuperGLUE 论文链接:https://arxiv.org/abs/1905.00537

gluebenchmark 官网:https://gluebenchmark.com/

GLUE 论文链接:https://arxiv.org/abs/1804.07461

2020

☞GitHub 宣布拆“墙”,恢复伊朗开发者使用权!

☞如何用一句话证明你是程序员?

☞TIOBE 1 月编程语言:Python 摘得 2020 年度编程语言!

☞Linux之父新年首次“炮轰”:英特尔在扼杀整个ECC行业

☞拼多多开除即将拿到股票的安全大佬;虾米音乐将永久关停;GitHub 解禁伊朗开发者使用权 | 极客头条

☞Google DeepMind 团队发布新算法,下一个被 AI 虐哭的是谁?

谷歌大脑组合模型霸榜 SuperGLUE

谷歌大脑组合模型霸榜 SuperGLUE

谷歌大脑组合模型霸榜 SuperGLUE

本文来自网络,不代表聚合资讯立场,转载请注明出处:http://www.1and99.com/3837.html

作者: admin

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

联系我们

13888888888

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部