我注意到,AI大模型在今年变得异常火热,尤其是OpenAI的ChatGPT,它像一匹快马先锋,而微软、谷歌、Meta紧随其后。国内的科技巨头们也迅速跟进,现在据说已经有上百款这样的大模型问世了。
这些大模型之间实力的对比,让人好奇它们真正的能力如何?最近,我听说清华大学新闻与传播学院发布了一份《大语言模型综合性能评估报告》,在这份报告中,他们将国内外的大型语言模型进行了比较。
其中,这7款大型语言模型中,GPT-4毫无疑问地占据了榜首位置,其次是百度开发的文心一言,然后依次是GPT-3.5、Claude、讯飞星火和阿里云的通义千问以及昆仑推出的天工。
尽管GPT-4在各方面表现出色,但对于我们这些使用中文的大多数用户来说,最重要的是哪个能更好地理解中文。这一点上,百度的文心一言胜出,在处理中文语义理解方面,以高达92%得分率排名第一,不仅超越了讯飞星火,还超过了领跑者GPT-4。
这种优势可能源于百度的大型语言模型所包含大量中文文本,因此它能够更好地处理涉及本土文化内容的问题。