资讯
在英语考试之外, 数学竞赛 ,尤其是像 袋鼠数学(Math Kangaroo)这样的国际赛事,正成为越来越多家庭教育中的“流量密码”。哈佛、MIT、牛剑等名校不仅看重语言成绩,更喜欢那些拥有逻辑思维、建模能力和国际竞赛经历 的学生。
研究团队最终选择了一个14B(140亿)参数的模型规模。这个选择颇有深意——它既足够大,能够表达复杂的数学推理过程,又不会大到无法在消费级GPU上高效运行。就像选择一个既能装下所有必需工具又便于携带的工具箱一样,这个规模在性能和实用性之间找到了最佳平衡点。
除了我们开头提到的智能体的能力变化,报告还测试了当前主流的几家大模型的能力。例如,像o3这样的前沿模型在METR任务上的表现一直高于趋势水平,翻倍时间快于7个月,在9个基准测试的翻倍时间中位数约为4个月(范围为2.5至17个月)。
datawhalechina / math-for-ai Public Notifications You must be signed in to change notification settings Fork 18 Star 119 ...
2023年成立的中国AI初创公司月之暗面,刚刚发布了其最新重量级产品Kimi-K2。 这是一款参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。
布鲁金斯学会(Brookings ...
一周AI大事:Grok 4硬刚GPT-5,英伟达市值破4万亿美元,英伟达,马斯克,谷歌,吴恩达,机器人,grok ...
18 小时
科技行者 on MSN北航大学团队推出Easy Dataset:让普通人也能制作AI训练数据的神奇工具这项由北京航空航天大学计算机学院Ziyang Miao、Qiyu Sun、Jingyuan Wang、Yuchen Gong、Yaowei Zheng等研究人员以及独立研究者Shiqi Li共同完成的研究发表于2025年7月5日,论文标题为"Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuni ...
论坛的一大亮点是两大国际数学实验室中国首发。由菲数中国与西班牙国家数学科学委员会(ICMAT)联合发起的两大国际高水平数学实验室将首次在中国揭牌,普陀区人民政府将共同参与见证。实验室聚焦数学与智能融合的基础研究,致力于打造国际科研合作新平台。
1 天
三易生活 on MSN月之暗面日前发布并开源旗下首个万亿参数模型日前,月之暗面正式发布新一代MoE架构基础模型Kimi K2,并同步开源。据了解,Kimi K2总参数达1T、激活参数为32B,同时也是月之暗面发布、并开源的首个万亿参数模型。 据悉,目前月之暗面方面已开源 Kimi ...
在 PersonQA 基准测试中, o3 会在 33% 的问答中出现幻觉 ,几乎是o1( 16% )的 2 倍, o4-mini 的幻觉率更是高达 48% ,远高于此前发布的推理模型。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果