新智元-创奇社

2432311

新智元

这家伙很懒，什么都没有写...

发布73

Llama 4训练作弊爆出惊天丑闻！AI大佬愤而辞职，代码实测崩盘全网炸锅

Meta发布的新模型Llama 4引发质疑，代码能力不佳且存在作弊嫌疑。内部员工爆料称在训练过程中曾混入多个基准测试集以获得良好表现。多位AI研究人员指出Llama 4的表现远逊于SOTA模型，网友普遍对...

32天前

090

DeepMind果蝇登Nature，强化学习再立功！AI模拟飞行，逼真到腿毛颤抖

研究所的科学家们，用AI打造了一个栩栩如生的虚拟果蝇模型。这个模型不仅能精准模拟果蝇的飞行与行走，还

行业动态 # 虚拟现实 # 果蝇 # 神经网络

18天前

02715

ChatGPT解锁完整记忆，奥特曼彻夜难眠！所有聊天记录黑历史AI全知道

失眠。然而，更大惊喜在后面——GPT-4.1、o3、o4系模型或许将在下周发布。昨晚，奥特曼一则预

行业动态 # OpenAI # GPT-4.1 # 记忆功能

32天前

080

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

化和后训练协同，引入自生成数据闭环和结构化感知推理机制，实现模型自我进化，为大模型发展提供新思路。

行业动态 # SICOG # 多模态预训练 # 幻觉控制能力

32天前

0110

谷歌最强AI芯片狙击英伟达B200，性能狂飙3600倍！谷歌版MCP一统AI智能体宇宙

推理设计，性能较从初代飙升3600倍，可与英伟达B200一较高下。不仅如此，谷歌还带来了Veo 2等

行业动态 # A2A协议 # Ironwood # TPU

32天前

090

英伟达华人AI版《猫和老鼠》爆火全网，60秒经典泪目！仅靠Transformer新增一层

TTT打造了一分钟视频生成器，让汤姆和杰瑞的追逐战延续到全新篇章，技术与经典的完美碰撞，你准备好迎接

行业动态 # 开源代码 # 扩散模型 # TTT-MLP

32天前

08250

勇克FPGA难题！UCLA丛京生教授斩获2024年ACM计算突破奖

，以表彰他在FPGA芯片设计自动化和可定制计算领域的重大贡献。他突破了FPGA编程的瓶颈，开发出让普

行业动态 # AutoESL # HLS # NSF

32天前

01220

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

ma Nemotron-253B推理模型，在数学编码、科学问答中准确率登顶，甚至以一半参数媲美Dee

行业动态 # 复杂任务 # 253B模型 # Llama 3.1

34天前

0200

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语

行业动态 # David Fan # Peter Tong # Web-DINO

32天前

0110

LLM幻觉，竟因知识「以大欺小」！华人团队祭出对数线性定律与CoDA策略

，揭示、预测并减少幻觉！通过实验，研究人员揭示了LLM的知识如何相互影响，总结了幻觉的对数线性定律。

行业动态 # 自然语言处理 # Coda # 伊利诺伊大学厄巴纳-香槟分校

32天前

0120

2025 CSRankings排名出炉！上交大、清华北大、浙大霸榜全球AI TOP 10

2025年CSRankings公布，卡耐基梅隆大学蝉联第一。清华、上海交通大学/浙江大学并列第三，北京大学位居第五。中国高校在AI领域表现突出，包揽全球前十中的六席。

行业动态 # 清华大学 # 浙江大学 # 上海交通大学

32天前

0140

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，

行业动态 # 人工智能 # 强化学习 # 数学推理

40天前

080

浙大校友重磅革新Transformer！多token注意力让LLM开挂，错误率归0

Meta FAIR团队提出多token注意力机制（MTA），利用键-查询卷积和头混合卷积，显著提升Transformer模型的性能。通过结合不同查询和键信息，实现精准的信息处理，解决传统注意力机制在复杂信息检...

行业动态 # 880M参数 # Meta FAIR # Tianlu Wang

32天前

090

Gemini 2.5连续屠榜，谷歌突然换帅！19年老将立即卸任

谷歌AI团队调整领导层，由Google Labs负责人Josh Woodward接管Gemini团队。此举显示谷歌正重新思考其在人工智能战略布局，并可能推出新产品以对抗OpenAI。

行业动态 # 谷歌 # AI战略布局 # AI模型（Gemini）

32天前

090

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务，标志着AI向通用人工智能（AGI）又迈进了一步。

行业动态 # 强化学习 # 通用人工智能 # DeepMind

32天前

0100

AMD GPU性能暴涨7倍，优化算法首次开源！高效MoE支持任意专家数量

PERT_NUMBER==256），并积极利用共享内存（5kB LDS）和寄存器（52 VGPRs，

行业动态 # 深度学习模型 # CUDA平台 # MI300X

33天前

0110

o3狂烧3万美金解一题，反被AGI榜单除名！试错1024次不如10岁小孩哥4分钟

OpenAI的o3推理模型成本从预估的3000美元飙升至3万美元，远超预期。尽管o3-high试图通过暴力试错生成大量文本解答问题，但被ARC-AGI系统排除在外，因为每个任务的成本高达3万美元。

行业动态 # OpenAI # o3 # 推理模型

33天前

0120

被哥大开除后，他靠AI作弊神器年入千万！血洗硅谷大厂拿遍offer成功创业

小哥，最近有新后续了：创业成功，月入22.85万美元，走上人生巅峰。与此同时，大厂的面试官们可是被

行业动态 # ChatGPT # Interview Coder # vibe coding

33天前

090

Claude 3.5首战复现21%顶会论文，人类博士无法取代！OpenAI：AI全是草台班子

enAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀

行业动态 # OpenAI # PaperBench # Claude-3.5-Sonnet

40天前

0110

75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI

模型，证明LLM已通过图灵测试。什么？AI竟然通过了标准的三方图灵测试，而且还是拿出了实打实证据的

行业动态 # 大型语言模型 # Eliza # 图灵测试

40天前

0100

12 3 4 下一页