transformers - 搜索 News

资讯

22 小时

2020 年，OpenAI 研究员 Alec Radford ...

17 分钟

AI短视频博主是一个超级个体。图片来源｜博主“小确幸”“猫了个咪”“Pablo Prompt”视频截图 “一个小猫做饭视频，用AI不到2小时就能做出来，播放量最高能到一千多万。”AI制作短视频博主李可告诉《中国企业家》。在李可制作的视频中，橘黄色的小猫身穿围裙，如同人类般直立着站在灶台前，翻炒着锅里的辣椒炒肉。这些曾只出现在动画片里的情节，如今却真实地呈现在短视频平台上。近期，诸如“小猫做饭” ...

腾讯网4 小时

下一句会是什么？我们是否高估了预测编码理论？

预测编码理论相关研究最早可追溯到视觉加工领域。20世纪末，Rao和Ballard提出了一种视觉加工的预测编码模型：高级视觉区域会对低级视觉区域的活动进行预测，低级视觉区域则反过来向高级视觉区域传递预测误差，即未能被预测的“新奇”信息 [2] ...

腾讯网20 天

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。李崇 ...

CTIMES8 天

AI「相变」新证据 Transformers从词序推理突变为语意理解

大利 SISSA Medialab 与瑞士 EPFL（洛桑联邦理工学院）联合研究，首次从理论角度验证：「Transformers」神经网路在训练过程中会出现如同物理相变的转折点，初期阶段以「位置」为依据理解语句，当训练资料量足够後，模型会突然切换到以 ...

6 小时

首篇潜空间推理综述！模型思考不必依赖Token，带宽暴增2700+倍

潜空间推理是一个新兴领域，其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者 Mostafa Dehghani 与谷歌大脑和DeepMind （后两者当时处于独立状态）共同发表的《Universal Transformers》。

8 天

新一代EBT架构：基于能量的Transformer全面超越现有模型35%

随着训练时间的增加，EBT的思考能力持续提升，性能提升幅度从4%-8%逐步增长到10%-14%。这种渐进式的能力提升，意味着EBT模型在长期训练中的稳定性和适应性，为实际应用提供了保障。研究人员的扩展实验显示，EBT在不更换分词器的情况下，成为首个在 ...

2 天

ICCV 2025满分论文：一个模型实现空间理解与主动探索大统一

针对这一问题，清华大学、北京通研院、北理工与北航的研究团队联合提出了一种统一空间理解与主动探索的新型模型。该方法使智能体能够在动态探索过程中逐步构建对环境的认知，从而实现更高效的空间感知与自主导航，为智能体在物理世界中的任务执行奠定了基础。

芯智讯 on MSN9 天

华为盘古大模型“抄袭”阿里Qwen？官方回应

2025年6月30日，华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。随后一项由@HonestAGI 发布于GitHub的针对盘古大模型的研究引发业界热议，该研究的作者认为，华为推 ...

6 天

美国变形金刚，要涨价了

在美国总统特朗普“关税大棒”的重压下，生产大富翁（Monopoly）、变形金刚（Transformers）的全球玩具巨头孩之宝（Hasbro）警告称，今年晚些时候，美国玩具价格可能会上涨，尤其是更高关税未来如果生效的话。

China.org.cn3 天

China Focus: World's most powerful direct-drive floating wind turbine unveiled in China

BEIJING, July 12 (Xinhua) -- China has achieved a major breakthrough in clean energy technology with the rollout of the world's most powerful direct-drive floating wind turbine.

9 天

盘古大模型被指抄袭阿里Qwen？华为回应后，又有员工爆料

据《财经》报道，多家科技企业已关注此事进展，未来或推动建立更清晰的开源协议细则。华为云数据显示，盘古大模型已在30余个行业、400余个场景落地，此次争议或加速行业对开源协作规范的重视。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果