google gemini ai chatbot

资讯

随着 AI 聊天机器人的迅速普及，我们很难判断哪些模型确实在改进，哪些则已经落后。传统的学术基准测试提供的信息有限，因此许多人开始依赖 LM Arena 基于直觉的分析。然而，一项新研究声称，这个流行的 AI 排名平台充斥着不公平做法，偏袒那些恰好位居排行榜前列的大公司。但该网站的运营者则表示，该研究得出了错误的结论。

4 小时

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

例如，2024年11月期间，Google的 Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周内先后占据榜首。类似地，2025年3月4日，OpenAI的GPT-4.5和xAI的Grok-3同一天争夺榜首位置。

5 小时

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳 ...

LMArena模拟的缺陷：图7/8中的模拟存在问题。这就像说：NBA球员的平均三分命中率是35%。斯蒂芬·库里拥有NBA球员最高的三分命中率42%。这不公平，因为他来自NBA球员的分布，而所有球员都有相同的潜在平均水平。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

今日热点