清华发布大模型性能报告GPT-4在航空自然场景下更懂中文还是百度

我注意到，AI大模型在今年变得异常火热，尤其是OpenAI的ChatGPT，它像一匹快马先锋，而微软、谷歌、Meta紧随其后。国内的科技巨头们也迅速跟进，现在据说已经有上百款这样的大模型问世了。

这些大模型之间实力的对比，让人好奇它们真正的能力如何？最近，我听说清华大学新闻与传播学院发布了一份《大语言模型综合性能评估报告》，在这份报告中，他们将国内外的大型语言模型进行了比较。

其中，这7款大型语言模型中，GPT-4毫无疑问地占据了榜首位置，其次是百度开发的文心一言，然后依次是GPT-3.5、Claude、讯飞星火和阿里云的通义千问以及昆仑推出的天工。

尽管GPT-4在各方面表现出色，但对于我们这些使用中文的大多数用户来说，最重要的是哪个能更好地理解中文。这一点上，百度的文心一言胜出，在处理中文语义理解方面，以高达92%得分率排名第一，不仅超越了讯飞星火，还超过了领跑者GPT-4。

这种优势可能源于百度的大型语言模型所包含大量中文文本，因此它能够更好地处理涉及本土文化内容的问题。

你可能也会喜欢...