wasd8456 发布于2024-12-07 22:05:23 跨境AI语音 18 次
从GLUE到SuperGLUE:难度更大
SuperGLUE在GLUE设计的基础上,***用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:
CB短文本语料库
MultiRC真***问答任务数据集
COPA因果推理
WiC词义消岐
RoBERTa离人类还有多远
从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。
RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点
SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。
还有几点需要注意:
RoBERTa良好的表现很大程度受益于充足的数据集:ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。
WinoGender coref.accuracy表现较好,但代价是gender parity更差。
RTE模型在downward monotone inferences仍然表现较差:例如,它倾向于***设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”
Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。
让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!
SuperGLUE(Super General Language Understanding Evaluation)是当下NLP领域难度最大,权威性最高,含金量最足的测评标准之一,由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出,最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务,旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。
近日,自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一,中国AI创业公司追一科技AI Lab团队超越Facebook AI,跃居榜单第二。值得注意的是,相比谷歌T5等超大规模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲,相关技术已经落地到追一科技的AI数字员工产品线上,持续赋能银行、保险、证券、零售、地产、能源,教育,互联网等多个行业。
追一科技跃居SuperGLUE测试榜第二
除去作为参照的人类水平,目前排名榜单第一的是Google的T5模型。从学术研究看,T5模型达到了目前“实验室智能”的最好水平,但如果考虑商用,T5需要耗费大量的算力,且模型自身体积过于庞大,目前还不能落地到实际业务场景中,缺少实际的商业应用价值。
而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式,使得RoBERTa-mtl-adv模型大小合理,效果仅次于Google的T5。同时,相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言,可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好,排名最高。
Facebook 人工智能研究员和 Google 旗下的 DeepMind、华盛顿大学、以及纽约大学合作,于今日正式推出了 SuperGLUE 。
作为一个严格的语义理解基准测试项目,其能够针对现代高性能语义理解 AI 的性能,展开一系列的基准测试。
当然,SuperGLUE 投入使用的前提,是某会话 AI 的深度学习模型已经触及了天花板,并希望接受更大的挑战。
【图自:SuperGLUE,via VentureBeat】
SuperGLUE 使用谷歌的 BERT 作为性能基准模型,因为早在 2018 年的时候,它就已经在多方面被认为是最先进的、甚至打败了新一年的诸多竞争对手,比如微软的 MT-DNN、谷歌自家的 XLNet、以及 Facebook 的 RoBERTa 。
SuperGLUE 的前身,是纽约大学、华盛顿大学和 DeepMind 研究人员于 2018 年 4 月推出的针对语义理解 AI 的‘通用语义理解评估’(GLUE)基准测试。
发展到现在的 SuperGLUE,它能够评估比 GLUE 更复杂的任务表现,鼓励构建能够账务更复杂或细微差别的语义理解模型。
据悉,GLUE 能够根据 AI 对自然语言理解(NLU)系统给出的九个英语短句的识别处理表现,而给出该模型的分值,比如在线***评论数据集中提取情感细节的斯坦福情感树库(SST-2)。
目前 RoBERTa 在 GLUE 基准测试数据库中的得分为榜上第一,但 9 项 GLUE 任务中拿到了 4 项最高分。不过 SuperGLUE 包含了在一系列困难的 NLP 任务中测试创造性解决方案的新方法。
Facebook AI 研究人员在一篇博客文章中称:这些任务侧重于机器学习在诸多核心领域的创新,包括高效***样、转运、多任务、以及自我监督学习。
为向其他研究人发出挑战,SuperGLUE 选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。
简而言之,新基准测试包括了八项任务,用于测试 AI 语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。
此外,SuperGLUE 包含了性别偏见检测工具 Winogender 。至于最终的排行,将在 super.gluebenchmark*** ***上发布。感兴趣的朋友,可以阅读 5 月和 7 月份的修订版论文。
为增强同亚马逊Alexa的竞争力,在今年CES大展上谷歌将重头戏放在Google Assistant上。谷歌为这款语音助手带来的首个新技能就是,在Android手机被锁定的情况下依然能使用Google Assistant,此外还可以iPhone或者Android手机上调取登机牌使用。Google Assistant还具备其他新技能,例如以你的语气回复信息或者寻找你的笔记。
首先是锁屏新功能。***如你正在开车、或者从烤箱中取出晚餐,或者抱着孩子,用户可以向锁屏状态的手机发出一些简单的提问。例如要求设置或者关闭手机闹钟,搜索附近的餐馆或者设置倒计时。此外还可以咨询诸如时间、日期、手机剩余流量等信息。
Android和iOS端的Google Assistant即将能够登记你的航班信息,并调出登机牌。这里的神奇之处在于,只要您的航班确认电子邮件发送到您的Gmail帐户,您就不需要确认号码来办理登机手续。Google智能助理航班办理登机手续将在“未来几天”推出,首先是美联航的美国航班。
另一个旅行方面的新功能就是,Google Assistant可以在合作的酒店上预订房间。目前合作的酒店包括InterContinental, AccorHotels, Choice Hotels, Priceline, Mirai和Tr***elClick。
谷歌推出了***有语音识别功能,[_a***_]时间11月20日消息,据国外媒体报道,google将利用语音识别技术为***视频添加字幕。用户每分钟向***上传约20小时的***。
google已经在利用相似技术自动为googlevoice系统添加字幕。
google表示,尽管其技术并非十全十美,但将使有听力障碍以及无法将***中语音翻译为其他语言的用户更好地享受******。
google还使上传******的用户能更方便地添加字幕。用户输入文字后,软件可以根据***中的语言调整字幕显示时间。过去,对字幕和语言进行同步是相当困难的。
google通过官方博客称,本周将发布面向英语的“自动字幕”和“自动同步”功能。
Loup Ventures 的 Gene Munster,刚刚对智能手机市场上常见的三大语音助理进行了一番横向对比评测。
结果发现苹果 Siri 能够答对 83% 的问题,胜过亚马逊 Alexa、但仍落后于 Google Assistant 。
测试期间,Munster 向每款智能助理提出了 800 跟问题,然后比较每一款智能助理的回答方式。结论是 Alexa 的准确率为 79.8%,Google Assistant 则是 92.9% 。
【Google Assistant 依然领先,via MacRumors】
与去年 7 月的测试相比,今年的成绩均有大幅改善。此前 Apple Siri 的准确率仅为 79%,但今年已提升至 83% 。Amazon Alexa 去年为 61%,今年更是迅速拉高到了 86% 。
提问涉及地址、商务、导航、信息、命令五大方面,而 Google Assistant 的回答准确率依然傲视群雄,从去年的 86% 提升到了 92.9% 。
这项测试基于 iPhone 和 Android 设备的对比,尽管底层技术原理类似,但各家***用的方案却不尽相同。
其中 Siri 的测试平台为运行 iOS 12.4 的 iPhone、Google Assistant 来自于运行原生 Android 的 Pixel XL、Alexa 则是***用了 iOS 的 App 客户端。
五大类别的问题,旨在全面测试数字助理的能力和效用,比如询问附近的咖啡店、订购至今、公交导航、赛事信息、以及闹钟指令。
事实证明,Siri 在地点、指令和导航方面做得很是出色,但在信息和商业类别上拖了后腿。综合情况是 Siri 优于亚马逊的 Alexa、但逊于 Google Assistant 。
在电话相关的功能上,如通话、短信、邮件、日历、音乐,Siri 依然证明了自己的实用性。在语音指令方面,Siri 和 Google Assistant 都优于亚马逊 Alexa 。
Munster 表示,基于各大语音助理在近年来的显著持续显著改进,未来该行业将为我们带来更大的惊喜。
查看更多有关于 #SuperGLUE#Google#模型 的文章。
转载请注明来源:http://www.gxo-tech.com/post/4913.html
人工智能新四大发明应用?人工智能新四大发明应用?一、交通交通运输方面肯定会有很大的转变,从现在的人工驾驶逐步转换成以后的...
本文目录一览:1、AI人工智能可以做外贸吗?怎么做的?网络营销?2、不去尝试AI跨境电商会死掉?|环球易购解密...
华为天际通是什么?华为天际通开通东南亚包括香港澳门吗?亚马逊为EchoShow设备的Alexa添加哪些新功能?雨果网是...
谷歌和亚马逊在语音业务的布局上有什么不同之处?世冠杯境外战队语音曝光,EMC心态超乐观:“别怂,输了就输了嘛”,如何评价...
雨果网是干什么?钉钉国际化了吗?雨果网是干什么?雨果网于2014年7月正式进军跨境电商行业,是跨境电商智能服务平台。雨果...
世冠杯表演赛炸麦语音曝光,久诚英文指挥官“goblue”反蓝,猫神全程傻笑,你怎么看?苹果怎么拦截境外来电?西昌话的由...
海尔冰箱哪款好2022?2022年冰箱流行什么颜色?2022建议买的冰箱能效等级怎样选?雪祺电气怎么样?海尔冰箱哪款好2...
阿里巴巴国际站直播效果好吗?网易考拉“卖身”阿里,丁磊打不动了吗?阿里妈妈到底是干什么用的?如何使用阿里跨境宝?阿里跨境...
天籁优享版360使用方法?360tts是什么软件?360借条语音助手怎么关闭?讯飞语音助手安装不了?360相机语音助手怎...
如何评价阿里达摩院发布自研语音AI芯片技术,计算效率提升百倍以上?阿里的人工智能叫什么?天猫精灵能远程对讲吗?阿里tv助...