您的位置  日常用品  五金

NLP新基准SuperGLUE榜单刷新 追一科技超Facebook

近日,自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一,中国AI创业公司追一科技AI Lab团队超越FacebookAI,跃居榜单第二。值得注意的是,相比谷歌T5等超大规模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲,相关技术已经落地到追一科技的AI数字员工产品线上,持续赋能银行、保险、证券、零售、地产、能源,教育,互联网等多个行业。

追一科技跃居SuperGLUE测试榜第二

SuperGLUE(SuperGeneral Language Understanding Evaluation)是当下NLP领域难度最大,权威性最高,含金量最足的测评标准之一,由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出,最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务,旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。

追一科技在为企业提供智能交互服务的过程中,技术和应用互相驱动,将实际商业化应用中总结出的多任务学习、对抗训练、知识蒸馏等技术手段和经验融入到参赛模型中,并在SuperGLUE测评数据集上拿到第二的成绩。

除去作为参照的人类水平,目前排名榜单第一的是Google的T5模型。从学术研究看,T5模型达到了目前“实验室智能”的最好水平,但如果考虑商用,T5需要耗费大量的算力,且模型自身体积过于庞大,目前还不能落地到实际业务场景中,缺少实际的商业应用价值。

而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式,使得RoBERTa-mtl-adv模型大小合理,效果仅次于Google的T5。同时,相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言,可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好,排名最高。

“学霸”模型的商业化能力

SuperGLUE测试项目并非是“花拳绣腿”,而是实实在在考验模型通用能力的“铁人三项”;参加SuperGLUE也并非只是为了刷新评分,更重要的是检验当前技术能否很好地落地到实际应用场景中去。

SuperGLUE覆盖了问答、推断、语义理解、常识判断等自然语言理解维度,是人机智能交互过程中的核心环节,在具体的业务场景中都有很重要的应用价值。追一科技此次参赛模型的相关NLP技术已经被成熟运用于到自主研发的全套AI数字员工产品线上,广泛服务于银行、保险、泛互联网、地产、政企等多个行业的标杆客户。例如,在追一科技的智能在线机器人Bot中就融入了多轮问答技术、语义检索、机器阅读理解技术等NLP技术,能准确识别用户意图,满足用户需求。

口说无凭,接下来就结合SuperGLUE中的任务与Bot的具体案例,一探虚实。

单/多轮问答技术是指机器人和用户之间一问一答,实现多轮对话的过程。例如下面这个智能在线机器人Bot服务餐饮行业的场景:

智能在线机器人Bot不仅可以从对话中准确识别出地点,人数等信息,还能进一步追问用户未给出的“用餐时间”的信息,满足客户的需求。而传统的客服机器人并不会对未给出的潜在信息做出反应。

机器阅读理解技术在于机器人去“用力”理解文档中内容的意思,从而根据用户需求输出相应的结果。例如在金融保险领域会涉及到大量保险业务文档的修订、新增等情况。在面对客户时,即使是富有经验的客户经理,往往也很难迅速结合所有新增的文档内容进行有效回答。这时,定制了阅读理解技术的智能在线机器人Bot就又可以发挥作用了——可以实时帮助业务人员,针对相关问题从新文档中提取出答案,解决问题,降低出错的概率。

自然语言推断任务中“文本蕴含”是常出现的形式,在实际用语中非常的普遍,参考下面这个银行领域的例子:

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐
热网推荐更多>>