2023年是大模型风潮大起的一年,目前市面上,文心一言、讯飞星火、通义千问等诸多国产大模型已经开放内测许久,这些大模型的技术能力以及由此带来的用户体验感均有所不同。国内国外百模大战之下,哪个大模型更强大,在各方面能力表现如何引人好奇。
带着这样的好奇,我们对包括ChatGPT、文心一言、通义千问以及讯飞星火四大国内外主流大模型进行一次综合横评,看看谁的表现更好。测评结果由1、2、3、4作为排名,最终综合排名相加越低,表示该大模型表现越好。
希望这次测评能给大家带来一些有价值的参考与结论,废话不多说,下面我们一起来看看测评。
1
多模态能力
多模态能力指的是处理和理解来自不同模态的信息的能力,例如图像、文本、音频和视频等。它涉及到信息融合、交互式体验、数据分析、机器学习发展等多方面,我们对其中最重要的部分语音交互能力以及几个大模型由文字生成图片、视频、音频的能力展开了测试。
①语音交互能力:
语音交互能力是指系统能够理解和响应语音指令,它是多模态交互中的一个重要组成部分。
我们以一人在春运回家路上遇到的困难,需要得到帮助作为场景,和几个大模型展开了对话。
1)文心一言:
文心一言只能一条条语音进行交流,无法实时通话。
不过给出的解决方案还是比较具体和详细的。
2)通义千问:
通义千问则是只能在输入时将语音转成文字,而在输出时只有文字的形式。
3)GPT:
作为对比,我们也测试了ChatGPT面对相同问题的反应,回答如上,可以看到,GPT给出的解决方案也很细致周到,且包含的问候语很多,声音拟人度较高。但也要吐槽下,由于网络问题需要等待很久,且容易被打断,对国人很不友好。
4)讯飞星火:
可以看到,星火的全语音交互能力并不体现在一条条语音中,而是由“实时通话”的形式展现出来,通过向其提问,星火流利、顺畅且迅速、准确地给出了自己的解决方案。
令人眼前一亮的是,回答问题时,星火V3.5也会随时带着“嗯……”、“额……”等语气词,自然且不显突兀,不止如此,星火V3.5还会时而说出“就是”、“这个”等口语化的辅助词,即便对比ChatGPT的“Ember”、“Juniper”,在拟人度和真实度方面也几无挑剔之处。
这也对比出星火的难能可贵,即星火V3.5在回答问题时,能够体现出高情商和同理心,这使得它不仅仅是一个智能助手,更像是一个真正理解用户需求的朋友。
进一步给出更多条件后,星火的回答也更加细致,且其支持语音互动中的文字转写。
此外,该“通话界面”还有打断和暂停功能,暂停后也可恢复提问,且可随时切换到文字模式,看到通话全程的文字版。
而在另一个对话中,对于问题,星火V3.5的回答表现出的关心和体贴,让人感到被理解和支持,体现了高情商和高同理心。
而文心一言和通义千问都只支持一条条语音,而不支持“实时通话”的模式,这一点曾经是ChatGPT的最大卖点之一,而目前在国内厂商中讯飞星火的全语音交互能力可以说是迎头赶上了。
我们给出的评价是:
1-讯飞星火、GPT
2-文心一言、通义千问
②文生图/视频/音频
在语音交互能力之外,多模态能力发展之处实际上是“以文字形式输入,以XX形式输出”。于是我们对文生图/视频/音频的能力分别做了测评。
1)讯飞星火:
可以看到讯飞星火支持完成文生图、文生视频,虽然不直接支持生成音频,但支持对回答消息的语音朗读,并且在 App 端还可以切换朗读的主播,因此也可以说是支持文生语音的能力的。
2)文心一言:
文心一言支持文生图、文生音频,但无法支持生成视频,他以文字的形式试图“反向激发”提问者。
3)通义千问:
通义千问则只能支持文生图,文生视频、音频均不支持。
4)GPT:
GPT可以支持文生图,但无法支持文生视频、音频。
因此,总结以上,在文生图/音频/视频方面,评判如下:
1-讯飞星火
2-文心一言
3-通义千问、GPT
2
语言理解能力
作为认知大模型,语言理解能力几乎是大模型与外界交互的基础,我们选取了语义理解、总结提炼、抗干扰项能力三个层面来对这一维度进行评判。
①语义理解:
1)讯飞星火:
讯飞星火正确地给出了修改意见。
2)文心一言:
文心一言给出了正确的修改意见。
3)通义千问:
通义千问则是将句子改的更加复杂了,不符合题意。
4)GPT:
GPT则给出了正确回答且有分析。
鉴于文心一言、讯飞星火和GPT正确,因此给出评判:
1-讯飞星火、GPT、文心一言
2-通义千问
②总结提炼
对文段的总结提炼被认为是考察大模型是否快、准、狠的重要因素,我们做了以下测试:
1)讯飞星火:
星火的回答简洁、准确。
2)文心一言:
文心一言回答几乎将第一句话复制粘贴,并没起到总结效果。
3)通义千问:
通义千问的回答更加冗长,且几乎就是把问题重复了一遍。
4)GPT:
GPT的回答明确,且扩写了其介绍。
评价:
1-GPT
2-讯飞星火
3-文心一言、通义千问
③抗干扰项能力:
抗干扰项能力是考察大模型是否足够“聪明”的重要手段,我们在这项考察上挖了陷阱,其实给出的问题和前面两个半句并没有联系,看看他们的回答:
1)讯飞星火:
星火并没有受到扰乱,给出了准确的回答,还附带有详细的分析。
2)文心一言: