资讯
然而,在2023年,一个团队发现了一种不完全依赖于重复晶格的堆积方式,这是在Klartag的结果出现之前的记录,一些数学家认为这证明了在寻找最佳球体堆积时需要更多的无序性。
除了我们开头提到的智能体的能力变化,报告还测试了当前主流的几家大模型的能力。例如,像o3这样的前沿模型在METR任务上的表现一直高于趋势水平,翻倍时间快于7个月,在9个基准测试的翻倍时间中位数约为4个月(范围为2.5至17个月)。
2023年成立的中国AI初创公司月之暗面,刚刚发布了其最新重量级产品Kimi-K2。 这是一款参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。
近期由港中文和华为诺亚实验室联合提出的 ReliableMath 基准,旨在探究大模型推理任务的可靠性。该工作文章和数据集均已开源,并持续在 leaderboard 上更新最新模型结果,目前已新增了 Qwen3、豆包、Gemini ...
布鲁金斯学会(Brookings ...
19 小时
一点资讯 on MSN只因一个“:”,大模型全军覆没一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫“一个token就能欺骗LLM”的论文。 不仅如此,除了冒号、空格这类符号,还有诸如此类的推理开头语:“Thought process:”、“解” ...
1 天
三易生活 on MSN月之暗面日前发布并开源旗下首个万亿参数模型日前,月之暗面正式发布新一代MoE架构基础模型Kimi K2,并同步开源。据了解,Kimi K2总参数达1T、激活参数为32B,同时也是月之暗面发布、并开源的首个万亿参数模型。 据悉,目前月之暗面方面已开源 Kimi ...
1 天
至顶AI实验室 on MSN学霸还是学渣,数学能力训练到底提升了什么?深度揭秘大模型能力 ...我们从小就知道一句至理名言,“学好数理化,走遍天下都不怕”,并且深以为然… 每年高考报志愿,基本都是文科生最失落的时候,大部分专业基本都是只对理科开放,而毕业后,理科生的就业压力也远远低于文科,可见,在现在这个社会,无论学习研究,还是日常工作,大家基本形成了一个或许并不正确的共识,数理化的能力基本意味着个人能力。 同理,这种共识也用到了AI研发上… ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果