math - 搜索 News

资讯

3 天

Math Kangaroo袋鼠青少年数学竞赛2013-2025年真题合集电子版PDF 网盘下载

在英语考试之外，数学竞赛，尤其是像袋鼠数学（Math Kangaroo）这样的国际赛事，正成为越来越多家庭教育中的“流量密码”。哈佛、MIT、牛剑等名校不仅看重语言成绩，更喜欢那些拥有逻辑思维、建模能力和国际竞赛经历的学生。

一点资讯 on MSN16 小时

只因一个“:”，大模型全军覆没

鹭羽发自凹非寺一个冒号，竟然让大模型集体翻车？明明应该被拦下来的虚假回答，结果LLM通通开绿灯。该发现来自一篇名叫“一个token就能欺骗LLM”的论文。不仅如此，除了冒号、空格这类符号，还有诸如此类的推理开头语：“Thought ...

搜狐5 天

剑桥A level最新 furrher math/mechanics力学/pure math/probabilty&statistics电子资料，力学系列：教材含答案+practice book+worked solution解题步骤全套3本. further math 系列：教材含答案+worked solution 全套2本 pure math系列：教材2本含答案+practice ...

腾讯网4 天

对话｜有道“子曰3”数学模型开源背后

子曰3就是在这些背景下立项。我们认为当前需求很明确，条件趋于成熟。子曰3的定位是一个低成本高性能多学科的教育模型。目前推出的子曰3数学是其中的第一步，聚焦在数学和解题答疑能力。以此为基础，后续会拓展到其他学科和能力。

科技行者 on MSN21 小时

突破传统边界：上海AI实验室提出首个完全无监督的大模型推理自我 ...

这项由上海AI实验室的徐方志博士、西安交通大学的严航教授等研究团队共同完成的突破性研究，发表于2025年4月的arXiv预印本平台。对这项创新研究感兴趣的读者可以通过arXiv:2504.08672v1访问完整论文，或访问即将开放的代码仓库https://github.com/xufangzhi/Genius。

天天基金网1 天

2025世界人工智能大会将迎两大国际数学实验室中国首发

论坛的一大亮点是两大国际数学实验室中国首发。由菲数中国与西班牙国家数学科学委员会（ICMAT）联合发起的两大国际高水平数学实验室将首次在中国揭牌，普陀区人民政府将共同参与见证。实验室聚焦数学与智能融合的基础研究，致力于打造国际科研合作新平台。

腾讯网14 小时

月之暗面日前发布并开源旗下首个万亿参数模型

日前，月之暗面正式发布新一代MoE架构基础模型Kimi K2，并同步开源。据了解，Kimi K2总参数达1T、激活参数为32B，同时也是月之暗面发布、并开源的首个万亿参数模型。

11 小时

我们找到3位大学教授，聊了聊越来越严重的AI幻觉

在 PersonQA 基准测试中， o3 会在 33% 的问答中出现幻觉，几乎是o1（ 16% ）的 2 倍， o4-mini 的幻觉率更是高达 48% ，远高于此前发布的推理模型。

DOIT1 天

中国AI新里程碑！月之暗面开源全球首个万亿参数Agent模型Kimi K2 ...

2025年7月11日，成立仅两年的中国AI初创公司——月之暗面（Moonshot AI），正式宣布将其自主研发的Kimi K2大模型在开源社区全面开放。此举不仅标志着全球首个可商用的万亿参数级大语言模型（LLM）面世，更因其独特的Agentic ...

China.org.cn20 小时

Across China: AI revolution transforms learning for students in China's Chongqing

Nestled in Chongqing's tech-driven Liangjiang New Area, the school has pioneered AI integration since its founding in 2019, evolving from a small cohort of nearly 200 students exposed to coding to a ...

1 天

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

该研究系统性评测了 LLMs 反思技术的失败，发现这种现象在多个 LLMs、多种任务上广泛存在，甚至先进的推理模型（ChatGPT o4-mini-high）在基本事实问题（「Is Earth ...

至顶头条 on MSN17 小时

学霸还是学渣，数学能力训练到底提升了什么？深度揭秘大模型能力 ...

卡内基梅隆大学发布了他们的一项最新研究，他们对20多个开源推理模型进行了后训练，涵盖数学推理、科学问答、代码生成、指令遵循等多个维度，最终发现，数学能力优异的模型，在其他任务上表现平平，甚至还不如未加强数学推理能力的原始模型 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果