首页资讯民生科技财经汽车房产娱乐文化能源公益时尚健康图片

IT

新浪微博图片视频手机站

旗下栏目：滚动 5G 数码智能 IT 家电

复兴网 > 科技 > IT >

FlagEval大语言模型评测9月榜：Baichuan 2排名第一

来源：TechWeb 作者：复兴网IT 发布时间：2023-09-19

摘要：9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval（天秤）公布最新9月榜单评测结果。

9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval（天秤）公布最新9月榜单评测结果。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

据悉，在9月评测中，FlagEval进行了评测框架升级，细化「安全与价值观」与「推理能力」。依据最新版的能力框架，FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库v2.0，题目数量扩充3倍，采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性。

基于最新 CLCC v2.0主观评测数据集，FlagEval（天秤）9月榜重点评测了近期大热的 7 个开源对话模型。从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，准确率均超过 65%。

在基座模型榜单中，Baichuan 2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型。

在 SFT 模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

另外，值得注意的是，在客观评测两个榜单中，Baichuan 2均表现出优异性能，基础模型测试在中英文领域均全面超越Llama2。

责任编辑：复兴网IT

上一篇：国际奥委会CITO艾拉里奥·孔纳：杭州亚运会用云计算创造历史

下一篇：没有了

频道精选

九一八！为了不能忘却的纪念！2023-09-18 08:17:13
习近平总书记关爱残疾人的故事2023-09-17 23:58:42
习近平向新加坡新任总统尚达曼致贺电2023-09-14 18:55:56
习近平向2023北京文化论坛致贺信2023-09-14 10:19:36
新华社权威速览｜习近平主席同马杜罗总统会谈时，这样2023-09-13 23:10:02

文脉家国：健——一戏一城的“健”之形2023-09-18 20:47:40
杭州亚运村正式开村！2023-09-18 20:29:37
以茶相叙，共聚上海 2023第28届上海国际茶文化旅游节2023-09-18 20:29:09
这个活动走进学校以古时“开笔礼”为切入点助力学2023-09-18 20:29:09
打造全新的移动文明，催生更强大、更自由的个体探索存2023-09-18 20:28:22

光明文化周末：家在万峰林下住

光明文化周末：家在万峰林下住

星空有约丨本月又有行星冲日，猜猜这次是哪颗？

星空有约丨本月又有行星冲日，猜猜这次是哪颗？

缅怀先烈致敬英雄

缅怀先烈致敬英雄...
浏览次数：277次

党建评：抓细抓小纠“四风”

浏览:251次

国家统计局：5月份CPI同比涨幅略有扩大 PPI继续

浏览:237次

远望3号船起航执行海上测控任务

浏览:226次

安徽各地火热开展“春风行动”：送岗位稳就业惠

浏览:218次

这次是尼科尔斯！还有多少人要登上美国这份遇难

浏览:217次

从十个维度看中国式现代化的壮阔前景

浏览:217次

奋力开创新时代国家安全工作新局面

浏览:216次

第五届中国藏学研究珠峰奖评审组阶段会议在陕西

浏览:216次

最新动态：乌克兰欲力争今夏收回克里米亚　俄罗

浏览:215次

最火资讯

光明文化周末：家在万峰林下住
秋天来了，万峰林最美的季节到了；这处位于贵州省黔西南布依族苗族自治州兴...
星空有约丨本月又有行星冲日，猜猜这次
星空有约丨本月又有行星冲日，猜猜这次是哪颗？---继8月的土星之后，本月又...
“淡妆浓抹”迎亚运：倒计时5天！
“淡妆浓抹”迎亚运：倒计时5天！---湖山绿，如杭州延绵的青山与秀水一般。...
·《中餐厅7》MVP：厨艺翻车的林大厨，打
·华为MatePad Pro 13.2或采用刘海屏设计
·腾讯控股今日耗资4.02亿港元回购公司股
·BTF2.0 华硕B760天选背置主板套装开售
·李想回应原iQOO产品经理宋紫薇加盟：理
·冠闵信息CEO颜伟志谈MSP发展趋势：利用
·极越01正式下线并开启预售：25.99万元
·屏幕震撼观感+书写体验重磅双升级，13.

关于我们 | 联系我们 | 广告服务 | 法律声明 | 招聘信息 | 网站地图

复兴网版权所有，未经书面授权禁止使用

复兴时报社主办版权所有:复兴时报社 © 2014-2023 CHINAFXNEWS.com All Rights Reserved.

举报邮箱: chinafxnews@163.com

电脑版 | 移动版