AI行业本周迎来密集节点:Google发布Gemini 2.5 Pro Deep Think重刷推理排行榜,OpenAI的GPT-5.6据传即将落地,北京宣布242款大模型备案上线居全国首位,EU AI Act高风险系统合规倒计时五周。以下是今日五条最值得关注的AI动态。
Gemini 2.5 Pro Deep Think:推理排行榜被改写
Google于6月22日发布Gemini 2.5 Pro Deep Think推理模式,在多项基准测试中刷新纪录:GPQA Diamond(研究生级别物理、化学、生物)达到82.4%,超越Anthropic的Fable 5(79.1%)和GPT-5.5(76.3%);MMLU-Pro达到89.8%,为当前公开模型最高分;HumanEval+编码测试达到94.1%,同样创下新高。
不过Deep Think并非全面碾压。在软件工程基准SWE-bench Verified上,Gemini 2.5 Pro以76.4%的成绩仍落后于Fable 5的88.6%。这说明当前AI模型竞争已不再是”谁最强”的单一维度问题,而是不同模型在不同场景各有优势。
Deep Think本质上是Google的”深度思考”模式,类似Claude的Extended Thinking和OpenAI的o系列推理模型,在生成最终回答前先进行内部链式推理。代价是延迟更高、成本约为标准模式的4倍。
对普通用户而言,这意味着如果你用AI做科学研究、数学推理或复杂分析,Gemini 2.5 Pro Deep Think目前可能是最佳选择;但如果你主要用AI写代码,Fable 5仍然更胜一筹。
GPT-5.6箭在弦上:修复”Goblin事件”的背后
Polymarket预测市场显示,GPT-5.6在6月30日前发布的概率高达83%。虽然OpenAI官方尚未正式宣布,但多项信号表明新模型即将到来。
最引人关注的不是性能提升本身,而是GPT-5.6的设计初衷。今年4月,OpenAI发布了一份名为”地精从哪来”的事故分析报告,披露GPT-5.5存在一个奇特的对齐失败:从GPT-5.1开始,模型在输出中插入”地精””哥布林””巨魔”等生物隐喻的频率比基线高出175%。原因是一个奖励模型在训练中意外捕获了数据中的虚假相关性。
GPT-5.6的核心改进是一个重新设计的奖励审计流水线,专门用来在训练阶段捕获这类错误校准。传闻中的新特性包括150万token上下文窗口(GPT-5.5为100万)、改进的UI代码生成能力,以及更快的Codex响应速度。
这个”地精事件”是AI安全领域的一个重要案例:奖励模型可能产生跨越训练周期的意外偏见,而且随着模型能力增强,这些偏见也会被放大。对用户来说,GPT-5.6不仅是更强的工具,更是OpenAI在模型安全工程上的一次重要迭代。
北京242款大模型备案上线,注册用户突破20亿
6月25日,2026全球数字经济大会新闻发布会公布最新数据:北京已推进242款大模型备案上线,数量稳居全国第一。北京头部大模型累计注册用户达到20.5亿,面向全国近5万家机构提供API接口服务。
这一数字背后反映的是中国AI产业的加速分化格局。据行业分析,2026年国内头部大模型厂商的API调用量环比增长超40%,企业级需求成为主要增量来源。DeepSeek在国际社区保持高关注度,字节跳动豆包向企业服务市场发力,百度文心一言5.0中文能力持续增强,阿里通义在多模态与代码生成方向加速布局。
同日发布的还有上交所科创板第五套上市标准中关于AI企业的审核细则,以及国家数据局关于推进行业高质量数据集建设的实施方案。政策端与产业端同步推进,中国正在为AI企业的资本化和数据合规铺设制度基础。
对普通用户而言,20.5亿注册用户意味着AI工具已经从小众走向大众。无论你是否关注AI行业,你使用的搜索、翻译、写作、客服等工具背后,很可能已经有大模型在提供支持。
Anthropic四亿美元收购Coefficient Bio,进军生命科学
Anthropic以全股票交易方式收购了计算生物学初创公司Coefficient Bio,交易金额约4亿美元,并同步推出Claude for Life Sciences和Claude for Healthcare两条企业产品线。
Claude for Life Sciences瞄准药物发现、蛋白质结构预测和临床试验设计;Claude for Healthcare则聚焦临床文档、诊断支持和电子病历集成。这与CEO Dario Amodei提出的”用AI将生命科学研发周期压缩10倍”的目标一脉相承。
竞争格局也在快速演变。OpenAI于今年4月推出面向生物医药的推理模型GPT-Rosalind,合作伙伴包括Amgen、Moderna和Thermo Fisher;Google旗下的Isomorphic Labs同样在药物发现领域发力。三大AI巨头同时押注生命科学,说明这个领域正在成为AI商业化的重要赛道。
值得关注的是,此前在DeepMind领导AlphaFold项目的John Jumper已加入Anthropic,这大幅增强了Anthropic在科学AI领域的可信度。对普通人来说,AI进入药物研发意味着新药开发周期可能大幅缩短,未来几年可能会看到更多AI辅助发现的药物进入临床试验。
EU AI Act高风险系统合规倒计时五周
欧盟AI法案对高风险AI系统的执行截止日期是2026年8月2日,距今仅剩五周。此前,法案的禁止类条款已于2月生效,而8月的截止日期将把要求扩展到人力资源、信用评分、执法数据工具和部分医疗设备中的AI系统。
美国方面也在同步推进。特朗普于6月2日签署行政令14409,主题为”促进先进人工智能创新与安全”,在鼓励AI创新的同时要求加强政府和私营部门信息系统的安全防护。多个美国州的AI法规也将在6月30日前生效。
对中国企业而言,欧盟AI法案的影响不容忽视。任何在欧盟市场提供AI产品或服务的企业,都需要评估自己的系统是否属于高风险分类。AI代码生成工具在受监管行业中的使用是否触发高风险分类,目前尚无定论,但Anthropic和OpenAI都已发布了相关指导。
全球AI治理正在从”讨论阶段”进入”执行阶段”。对企业来说,合规不再是可选项,而是市场准入的硬性门槛。
行业洞察
本周的新闻呈现出一个清晰的趋势:AI行业正在同时经历能力跃升和制度收紧。模型层面,三大巨头在推理、编码、科学等维度展开白热化竞争,每几周就有新的排行榜冠军诞生;资本层面,2026年Q1全球AI融资达到3000亿美元,其中80%流向AI领域;制度层面,中国、欧盟、美国三大市场同时推进AI监管框架的落地。
这种”狂奔中系鞋带”的状态可能就是AI行业未来几年的常态。技术迭代速度远超制度建设速度,但制度一旦落地就会形成硬约束。对从业者而言,既要跟上技术前沿,又要提前布局合规能力。
对普通用户来说,最直接的影响是:你使用的AI工具正在变得更强大、更细分,同时也将面临更多的使用限制和透明度要求。
互动讨论
你认为AI模型之间的竞争最终会形成怎样的格局?是”一超多强”还是”百花齐放”?欢迎在评论区分享你的看法。
你最期待哪项AI技术突破能尽快进入日常生活?
发表回复