智源研究院发布大模型性能评估报告，国内外140多个大模型全面对比

5月17日下午，智源研究院在北京发布了对国内外140多个大模型的测评结果。有些令人意外的是，在一些面向三年级以下学生的测试题中，大模型的答题正确率还不如小学生。另外，根据测评结果，国产大模型在不同类别中都有突出表现，但并没有一个国产大模型公司能在所有领域都独占鳌头，比较领先的仍是美国AI研究公司OpenAI。

根据测评结果，字节跳动的豆包模型、阿里巴巴的通义模型分别在两个类别中排名第一名，百度的文心一言在3个类别中位列前五名，但都没有成为第一名。在单项类别中位列前五名的国产大模型，还来自百川智能、月之暗面、智谱华章、上海人工智能实验室、腾讯、爱诗科技等国内的公司和研究机构。

在5个细分类别中，OpenAI旗下的模型有3次位居榜首。

智源研究院院长王仲远接受经济观察网采访时说，测评结果说明，国内基座大模型支撑能力仍有很大的提升空间。他认为，这是当下国内大模型应用生态没有真正繁荣的主要原因。

对大模型做测评并不罕见，为什么智源研究院现在做这件事？王仲远说，市场上对大模型的测评，绝大部分是开卷考试，容易导致大模型公司刷榜、刷题，无法保证客观公正。他研究AI长达十几年时间，即使作为一个业内人士，也无法准确得知大模型的优劣。长此以往，他担心会出现劣币驱逐良币的现象。

智源研究院历时3个月完成了此次测评，它联合北京海淀教委以及中国传媒大学，使用了超过20余个数据集、8万道题（其中包括4000道主观题），让大模型作答。答案打分采取多人独立匿名评分机制。为了保持公正，智源研究院自己研发的悟道大模型不参与测评。

智源研究院是一家非营利性科研机构，也是国内最早做大模型的机构。王仲远说，他们没有任何商业利益诉求，因此在模型测评中能够保持中立的站位，这对模型测评非常重要。

国内模型能力并不均衡

为了对140多个大模型进行测评，智源研究院将它们分为语言模型、多模态理解（图文问答）模型、多模态生成（文生图、文生视频）模型等多个类别。不同类别中都有表现突出的国产大模型，但并没有一个国产大模型在所有领域都能独占鳌头。

在语言模型主观测评中，字节跳动的豆包模型排名第一，排在其后的是GPT-4、百度的文心一言、月之暗面的Kimi、智谱华章的GLM-4。

在语言模型客观测评中，GPT-4排名第一，排在其后的是百川智能的Baichuan3、百度的文心一言、智谱华章的GLM-4、月之暗面的Kimi。

在图文问答模型测评中，排名第一的是阿里巴巴的通义模型，上海人工智能实验室在该类别有两个模型入选，其他国产模型没有入选。在文生图模型测评中，智谱华章、百度、字节跳动、、Meta（脸书母公司）的模型位列前五。在文生视频模型测评中，爱诗科技、腾讯、、（美国文生视频公司）、Pika（美国文生视频公司）的模型入选前五。

“在中文语境下，国内语言模型的综合表现已经非常接近国际一流水平，中文大模型更懂中国人。”王仲远说。不过他也发现，国产大模型在能力上存在不均衡的情况，总体来看，国产大模型的文科能力比理科能力更好一些。

在某些考题上比不过小学生

智源研究院为了开展此次测评工作，邀请北京海淀教委出了45套基础教育（K12）阶段的考试题，试题数量达到1400道。其中有一点令人意外，大模型对低年级试题的回答成绩并不好。

有一道小学3年级水平的词汇题，要求学生仿照例子将词汇归类，把答案写在对应类别的横线上。最终测评结果显示，只有一个大模型答对了一小部分。包括OpenAI旗下GPT-4在内的大模型，都没有答对这道题。

这道3年级词汇题的测评结果并不是个例。智源研究院整体测评发现，在7年级至12年级学段里，大模型与人类之间的差异并不明显，答题成功率很高。但在3年级试题的测评中，面对这些对人类而言比较简单的题目，大模型回答正确率反而更低。

比如面对一道诗歌填空题，大模型并没有根据原有诗歌做出正确回答，反而自己造了一句诗。另外有一道古文题，题目要求学生从一段古文中挑选一段能体现古人宽容的语句，但大模型挑选的内容，恰恰是体现了古人不宽容的语句。

王仲远告诉经济观察网，大模型回答低年级题目时差错率高，是因为低年级题目图片更多。这说明，当前大模型的多模态技术发展程度比不上语言模型技术。同时说明，人类在多模态认知这个领域非常独特，AI对人脑的机制还没有完全理解透彻。

相关文章