10秒详论!成色18k.8.35mb菠萝30位数学家出题也差点没难倒AI，但这似乎还不意味着它“懂数学”

据知名科普杂志《科学美国人》的报道，今年五月中旬，一场由非营利组织 Epoch AI 主办的 FrontierMath 研讨会在加州伯克利秘密举行。三十位被称为“全球最负盛名的数学家”齐聚一堂，他们的任务只有一个：设计出人类专家能够解决、但最先进的 AI 却会束手无策的数学难题。这场对决的主角，是来自 OpenAI 的推理大语言模型 o4-mini。与早期版本的 ChatGPT 相比，o4-mini 在专门的数据集上进行训练，得到了更强的人类反馈强化，能够进行更加复杂和深入的数学推理。报道提到，Ken Ono 在会议中遇到了一个令他十分难忘的时刻。他设计了一个在他所在领域（数论）被认为是“开放性问题”的博士级别难题，并将其交给了 o4-mini。在接下来的十分钟里，Ono 和其他与会者在惊愕中见证了 AI 实时展开解题过程。模型首先花了大约两分钟，迅速检索并“掌握”了该领域的相关文献。紧接着，它提出先解决一个简化的“玩具版本”问题以进行学习。几分钟后，它宣布已准备好应对真正的挑战。最终，在总共不到十分钟的时间里，o4-mini 不仅给出了正确答案，其输出的文字甚至带有一种俏皮的自信，结尾写道：“无需引用，因为这个神秘数字是由我计算出来的！” 这一幕给 Ono 带来相当大的冲击，他坦言：“我从未在模型中见过那种推理方式。那是科学家的工作方式。这太吓人了。”他甚至在周日清晨就迫不及待地通过加密通讯软件 Signal 提醒其他与会者，他感觉自己面对的不再是一个程序，而是一个“强大的合作者”。类似的震撼场面在会议期间反复上演。其他数学家发现，即使是涉及最近研究成果的问题，AI 也表现出惊人的文献检索和应用能力。它能够迅速找到、引用并应用相关的研究结果，这种速度和准确性远超人类专家的预期。伦敦数学科学研究所的 Yang-Hui He 也给出了极高的评价，认为 AI 的表现“比一个非常非常优秀的博士生做得还要多”。在这场挑战中，o4-mini 在处理需要深度几何直觉和拓扑理解的问题时表现尤其出色，而且其速度远超人类，能在几分钟内完成人类专家需要数周甚至数月才能完成的工作。尽管最终与会者们还是成功找到了 10 个能够难住 AI 的问题，但这个结果本身还是给数学家们带来极大冲击——相比于传统语言模型在类似基准测试中不到 2% 的成功率，o4-mini 展现出的数学推理能力已经达到了前所未有的水平。不过在这篇文章引发热烈讨论后，一位参与了此次研讨会的数学家、Hyperbolic 创始人 Jasper Zhang 提出了一些异议，他表示，虽然 AI 的进步确实惊人，但原始报道在某些方面“有些夸张，需要澄清”。 Jasper 首先指出了一个被报道淡化，却对整个挑战性质有决定性影响的关键约束：“每个问题都需要一个数值答案”。他解释说，这与高等数学的核心有显著区别。现代数学研究的中心通常是推理与证明，而非纯粹的计算。一个问题可以有复杂的逻辑结构和深刻的理论内涵，但最终被要求输出一个具体的数字，这本身就改变了问题的性质，使得它更偏向于一个可以被计算工具优化的任务。 Jasper 所在的几何与拓扑小组，最初的策略是设计一些需要深刻几何直觉和关键定理理解的博士级别问题。他们相信，这是当前 AI 模型的弱点。但令他们惊讶的是，o4-mini 模型成功解决了他们提出的大部分问题。但这里的“解决”需要打上引号。Jasper 特别提到：“尽管其推理过程有时是错误的，但它仍然设法得出了正确的数值答案。” 这就说明，AI 可能并非通过类似人类的、严谨的逻辑推演来“理解”问题，而是利用其强大的模式匹配和计算能力，找到了一条通往正确数字的路径，哪怕这条路径在数学逻辑上并不完美。基于这一发现，Jasper 和他的同事调整了策略。他从一篇数学论文中提取了几个中间定理，然后设计了一个新问题，要求将这些定理综合起来，形成一种计算方法。这一次，AI“正如预期地陷入了困境”。Jasper 写道：“它无法将中间步骤联系起来，也无法有效地进行逻辑链条的推理。”这次失败，恰恰揭示了当前 LLM 的深层局限：在需要从零开始进行多步骤、跨概念的逻辑综合与创造时，它仍然力不从心。除了个别非常吸引眼球的案例，这次会议还揭示了 AI 数学能力的其他重要特征。参与者们发现，o4-mini 在处理涉及最新研究成果的问题时表现出色，能够有效地搜索、理解并应用最新的学术文献。这种能力在某种程度上弥补了人类专家在信息处理速度上的不足。同时，会议也暴露出 AI 系统的一个潜在风险：过度自信的表达方式。Ono 和 He 都表达了对 o4-mini 结果可能被过度信任的担忧。“有归纳证明、反证法，然后还有恐吓证明，”He 说，“如果你用足够的权威说某件事，人们就会感到害怕。我认为 o4-mini 已经掌握了恐吓证明；它说每件事都充满自信。” 从那 10 个成功“难倒”AI 的问题来看，它们往往需要复杂的多步骤推理和创新性的概念综合，而这也说明，当前 AI 系统的局限还是主要体现在原创性思维和深度逻辑综合能力上。最后，我们可以用 Jasper 的几点核心看法作为总结：AI 在过去两年确实取得了巨大进步，但目前的 LLM 在很大程度上仍然依赖于模式匹配，其深度推理能力有限。它们尚不具备生成全新数学成果的能力，但极其擅长收集相关文献和起草初步解决方案。人类的监督，尤其是在验证和综合方面，仍然是不可或缺的。他的预测也更为温和：在未来一到两年内，AI 将主要作为数学家的“助手”，帮助发现新理论和解决开放问题，就像陶哲轩与 DeepMind 的合作那样。之后，AI 才会开始作为“合作者”，并最终独立地推动数学前沿。

                                成色18k.8.35mb菠萝马斯克在X平台发帖回应说：“如果没有我，特朗普就会输掉大选”，“如此忘恩负义”。《纽约时报》评论称，这句话“比蛇的牙齿还锋利”，马斯克曾是特朗普的坚定盟友，斥资近3亿美元支持特朗普2024年竞选。特朗普则反击说，没有马斯克，他照样可以赢得选举。阿诺德：“我感觉非常好，也很高兴能来到这里。队友们让我感到我非常受欢迎，他们主动和我交流，确保我能理解一切，尤其是在翻译方面。他们帮助了我很多，我真的非常感激。”成色18k.8.35mb菠萝WWW.77788.gov.cn相关医学鉴定报告显示，李莉的伤残等级为一级。李辉告诉红星新闻记者，案件给李莉母女留下严重的心理阴影。她们接受过当地妇联、红十字会等相关机构的帮助，但小微仍出现过自残情节，而李莉这一年多一直在医院治疗，生活不能自理，经常半夜惊醒痛哭。李辉在她身边情况还好一点，所以就一直在医院陪护。而李莉的丈夫一直患有抑郁症，李辉只希望，妹夫能照顾好自己和小微就行。有此困扰的并非只有赵女士一家。《法治日报》记者近日随机采访了数十名路人，至少有七成受访者称曾刷到过“AI数字人”视频，并且“难以分清到底是真人还是‘数字人’”，而原因主要在于“找不到有效提示”。
                            

                                20251207 🔞 成色18k.8.35mb菠萝理由：切尔西目前由一个财团控股，该财团由四方组成，其中最广为人知的是托德-伯利和Clearlake资本集团，统称为BlueCo集团。2022年起，这一财团接手了俱乐部，当时，由于英国政府因俄乌战争对俄罗斯实施制裁，切尔西从前老板阿布拉莫维奇手中易主。在此期间，俱乐部的战绩与阿布时代相比大幅缩水，但在转会市场上却狂砸逾10亿英镑，缔造了史上三大最昂贵的转会窗口之一。然而，本赛季的反弹，包括英超第四名、重返欧冠以及欧协联夺冠，似乎也证明了：砸钱，或许真的能买来“快乐”。7788.gov.cm海光信息专注于国产架构CPU、DCU等核心芯片设计，其CPU/DCU产品已实现从16nm到7nm的技术跨越。而中科曙光在高端计算、存储、云计算等领域具有深厚积累，是国内服务器市场的“装机龙头”，2024年公司IT设备销售量26.54万台。去年，中科曙光实现营收131.48亿元，同比下降8.4%；实现归属于上市公司股东的净利润19.11亿元，同比增长4.1%。
                            

📸 李永明记者刘学摄

                                20251207 ✔ 成色18k.8.35mb菠萝我作为球员和里诺有过很多共同经历，也和他执教的球队交过手。当我代表尤文和他的球队对决的时候总是困难重重，他的球队的背后是理性和努力。在球场上你能立刻感受到这一点，每次我挑战他执教的米兰或那不勒斯时都觉得很难应对。而且，里诺那种斗志昂扬、意志坚定的特质是谁都无法否认的。此外，他也意识到了自我提升和进步的必要性。77788.gov.cnCCTV国际时讯报道，乌克兰外交部发言人泰希6月10日表示，目前谈论乌俄第三轮谈判的任何准备工作仍为时过早，乌俄双方正在进行非常复杂的被俘人员交换进程。此外，有关交换阵亡士兵遗体是复杂的人道主义问题，目前正在推进中。同日，俄罗斯总统新闻秘书佩斯科夫表示，俄方几天前就准备向乌克兰移交乌军阵亡士兵遗体，但截至目前，双方尚未就移交形式和条件达成最终协议。
                            

📸 周忠旺记者周涛摄

                            👙 此前有报道称托马斯-弗兰克有意带姆贝乌莫加盟热刺，但曼联似乎在争夺布伦特福德上赛季最佳射手的竞争中占据领先位置。WWW.8X8X.gov.cn