Day405——午课 AI模型混战与全球监管提速

AI行业本周迎来密集节点：Google发布Gemini 2.5 Pro Deep Think重刷推理排行榜，OpenAI的GPT-5.6据传即将落地，北京宣布242款大模型备案上线居全国首位，EU AI Act高风险系统合规倒计时五周。以下是今日五条最值得关注的AI动态。

Gemini 2.5 Pro Deep Think：推理排行榜被改写

Google于6月22日发布Gemini 2.5 Pro Deep Think推理模式，在多项基准测试中刷新纪录：GPQA Diamond（研究生级别物理、化学、生物）达到82.4%，超越Anthropic的Fable 5（79.1%）和GPT-5.5（76.3%）；MMLU-Pro达到89.8%，为当前公开模型最高分；HumanEval+编码测试达到94.1%，同样创下新高。

不过Deep Think并非全面碾压。在软件工程基准SWE-bench Verified上，Gemini 2.5 Pro以76.4%的成绩仍落后于Fable 5的88.6%。这说明当前AI模型竞争已不再是”谁最强”的单一维度问题，而是不同模型在不同场景各有优势。

Deep Think本质上是Google的”深度思考”模式，类似Claude的Extended Thinking和OpenAI的o系列推理模型，在生成最终回答前先进行内部链式推理。代价是延迟更高、成本约为标准模式的4倍。

对普通用户而言，这意味着如果你用AI做科学研究、数学推理或复杂分析，Gemini 2.5 Pro Deep Think目前可能是最佳选择；但如果你主要用AI写代码，Fable 5仍然更胜一筹。

GPT-5.6箭在弦上：修复”Goblin事件”的背后

Polymarket预测市场显示，GPT-5.6在6月30日前发布的概率高达83%。虽然OpenAI官方尚未正式宣布，但多项信号表明新模型即将到来。

最引人关注的不是性能提升本身，而是GPT-5.6的设计初衷。今年4月，OpenAI发布了一份名为”地精从哪来”的事故分析报告，披露GPT-5.5存在一个奇特的对齐失败：从GPT-5.1开始，模型在输出中插入”地精””哥布林””巨魔”等生物隐喻的频率比基线高出175%。原因是一个奖励模型在训练中意外捕获了数据中的虚假相关性。

GPT-5.6的核心改进是一个重新设计的奖励审计流水线，专门用来在训练阶段捕获这类错误校准。传闻中的新特性包括150万token上下文窗口（GPT-5.5为100万）、改进的UI代码生成能力，以及更快的Codex响应速度。

这个”地精事件”是AI安全领域的一个重要案例：奖励模型可能产生跨越训练周期的意外偏见，而且随着模型能力增强，这些偏见也会被放大。对用户来说，GPT-5.6不仅是更强的工具，更是OpenAI在模型安全工程上的一次重要迭代。

北京242款大模型备案上线，注册用户突破20亿

6月25日，2026全球数字经济大会新闻发布会公布最新数据：北京已推进242款大模型备案上线，数量稳居全国第一。北京头部大模型累计注册用户达到20.5亿，面向全国近5万家机构提供API接口服务。

这一数字背后反映的是中国AI产业的加速分化格局。据行业分析，2026年国内头部大模型厂商的API调用量环比增长超40%，企业级需求成为主要增量来源。DeepSeek在国际社区保持高关注度，字节跳动豆包向企业服务市场发力，百度文心一言5.0中文能力持续增强，阿里通义在多模态与代码生成方向加速布局。

同日发布的还有上交所科创板第五套上市标准中关于AI企业的审核细则，以及国家数据局关于推进行业高质量数据集建设的实施方案。政策端与产业端同步推进，中国正在为AI企业的资本化和数据合规铺设制度基础。

对普通用户而言，20.5亿注册用户意味着AI工具已经从小众走向大众。无论你是否关注AI行业，你使用的搜索、翻译、写作、客服等工具背后，很可能已经有大模型在提供支持。

Anthropic四亿美元收购Coefficient Bio，进军生命科学

Anthropic以全股票交易方式收购了计算生物学初创公司Coefficient Bio，交易金额约4亿美元，并同步推出Claude for Life Sciences和Claude for Healthcare两条企业产品线。

Claude for Life Sciences瞄准药物发现、蛋白质结构预测和临床试验设计；Claude for Healthcare则聚焦临床文档、诊断支持和电子病历集成。这与CEO Dario Amodei提出的”用AI将生命科学研发周期压缩10倍”的目标一脉相承。

竞争格局也在快速演变。OpenAI于今年4月推出面向生物医药的推理模型GPT-Rosalind，合作伙伴包括Amgen、Moderna和Thermo Fisher；Google旗下的Isomorphic Labs同样在药物发现领域发力。三大AI巨头同时押注生命科学，说明这个领域正在成为AI商业化的重要赛道。

值得关注的是，此前在DeepMind领导AlphaFold项目的John Jumper已加入Anthropic，这大幅增强了Anthropic在科学AI领域的可信度。对普通人来说，AI进入药物研发意味着新药开发周期可能大幅缩短，未来几年可能会看到更多AI辅助发现的药物进入临床试验。

EU AI Act高风险系统合规倒计时五周

欧盟AI法案对高风险AI系统的执行截止日期是2026年8月2日，距今仅剩五周。此前，法案的禁止类条款已于2月生效，而8月的截止日期将把要求扩展到人力资源、信用评分、执法数据工具和部分医疗设备中的AI系统。

美国方面也在同步推进。特朗普于6月2日签署行政令14409，主题为”促进先进人工智能创新与安全”，在鼓励AI创新的同时要求加强政府和私营部门信息系统的安全防护。多个美国州的AI法规也将在6月30日前生效。

对中国企业而言，欧盟AI法案的影响不容忽视。任何在欧盟市场提供AI产品或服务的企业，都需要评估自己的系统是否属于高风险分类。AI代码生成工具在受监管行业中的使用是否触发高风险分类，目前尚无定论，但Anthropic和OpenAI都已发布了相关指导。

全球AI治理正在从”讨论阶段”进入”执行阶段”。对企业来说，合规不再是可选项，而是市场准入的硬性门槛。

行业洞察

本周的新闻呈现出一个清晰的趋势：AI行业正在同时经历能力跃升和制度收紧。模型层面，三大巨头在推理、编码、科学等维度展开白热化竞争，每几周就有新的排行榜冠军诞生；资本层面，2026年Q1全球AI融资达到3000亿美元，其中80%流向AI领域；制度层面，中国、欧盟、美国三大市场同时推进AI监管框架的落地。

这种”狂奔中系鞋带”的状态可能就是AI行业未来几年的常态。技术迭代速度远超制度建设速度，但制度一旦落地就会形成硬约束。对从业者而言，既要跟上技术前沿，又要提前布局合规能力。

对普通用户来说，最直接的影响是：你使用的AI工具正在变得更强大、更细分，同时也将面临更多的使用限制和透明度要求。

互动讨论

你认为AI模型之间的竞争最终会形成怎样的格局？是”一超多强”还是”百花齐放”？欢迎在评论区分享你的看法。

你最期待哪项AI技术突破能尽快进入日常生活？

Day405——午课 AI模型混战与全球监管提速

Gemini 2.5 Pro Deep Think：推理排行榜被改写

GPT-5.6箭在弦上：修复”Goblin事件”的背后

北京242款大模型备案上线，注册用户突破20亿

Anthropic四亿美元收购Coefficient Bio，进军生命科学

EU AI Act高风险系统合规倒计时五周

行业洞察

互动讨论

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day40——晚课 AI搜索实战

Day405——午课 AI模型混战与全球监管提速

Day40——早课 AI搜索：新一代信息获取

Day39——晚课 AI编程工具实战

发表回复取消回复