资讯
1 天
一点资讯 on MSN大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩明敏 发自 凹非寺 大模型竞技场的可信度,再次被锤。 最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。 它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如: ...
模型提供商并非只选择“最佳分数披露”:任何列在公共排行榜上的模型都必须是向所有人开放且有长期支持计划的生产模型。我们会继续使用新数据对模型进行至少一个月的测试。这些要点一直在我们的政策中明确说明。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果