中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底最新 - 华西检测网

首页资讯行业经济鉴定人才基因科技生态快讯

首页> 资讯 > > 详情

中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底最新

2023-05-09 17:15:05 来源：快科技

快科技5月9日消息，中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准，它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

【资料图】

根据首个榜单显示，国内大模型中，近期发布的星火认知大模型最好，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是，讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面，已经达到GPT 3.5平齐的水准。

在语义理解方面，讯飞星火认知大模型甚至得到100分的满分，超过GPT-4。

而百度文心一言在总榜单中排名最后一名，得分32.61分。

据了解，SuperCLUE评测榜单由三部分组成：总榜单、基础能力榜单、中文特性榜单，排行榜会定期更新，可点此访问.

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

基础能力榜单

中文特性榜单

责任编辑：

关键词：

中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底最新

世界快播：英文自我介绍研究生面试中的科研经历_英文自我介绍研究生面试

【世界快播报】世界杯预选赛欧洲区B组第二轮西班牙客场2比1险胜格鲁吉亚

当前视讯！头发蓬松烫什么_烫蓬松的发型叫什么烫简介介绍

环球观天下！香蜜湖新动作！大湾区首个创投街区迎来“一站式”服务新平台

中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底最新

快科技5月9日消息，中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准（SuperCLUE），是

世界快播：英文自我介绍研究生面试中的科研经历_英文自我介绍研究生面试

1、DearTeachers,Goodafternoon:Itismygreatpleasuretoha

【世界快播报】世界杯预选赛欧洲区B组第二轮西班牙客场2比1险胜格鲁吉亚

世界杯预选赛欧洲区B组第二轮，西班牙客场2比1险胜格鲁吉亚，格鲁吉亚第43分钟先取得进球，西班牙第56分钟

当前视讯！头发蓬松烫什么_烫蓬松的发型叫什么烫简介介绍

对于烫蓬松的发型叫什么烫这个问题感兴趣的朋友应该很多，这个也是目前大家比较关注的问题，那么下面小好小

环球观天下！香蜜湖新动作！大湾区首个创投街区迎来“一站式”服务新平台

大力打造粤港澳大湾区创投机构集聚高地，深圳又有新举措！5月9日，承载着金融支持科创产业高质量发展使命的

火出圈的养老院如何炼成？让老人乐活每一天

推动元宇宙概念落地第七届中国虚拟现实产学研大会于虚拟会场召开

宁波镇海划出封控管控防范区宁波前往北京航班全部取消

一天连轴转！丈夫用7个闹钟定时照顾渐冻症妻子

冰城战“疫”，有你不慌——哈尔滨战“疫”一线扫描

24小时于都排行

1气候变化影响人类生活的方方面面 2一箭22星！长城公司再次成功执行“共享火箭”发射任务 3大脑的功能会随着年龄的增长而下降吗？ 4重磅！“十四五”科普进口税收政策“红利”全面落地 5192万平方公里！今年2月南极海冰面积创最小纪录 6一男子在上海持刀伤人 9人受伤送医 7新疆沙湾市民警抓获潜逃16年命案嫌疑人 8“雪如意”照明的“智慧大脑”有何神奇之处？ 9河北任丘一退休民警为民义务理发47载累计服务逾10万人次 10寻儿14年电影《亲爱的》原型之一孙海洋与儿子终团圆