赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名守约测试无厂商赞助

此刻该用谁

主榜第一（滚动均值） Claude Sonnet 4.6

本周最大上升 Qwen3 Max +68.5

最大回撤 DeepSeek V3 -75.1

最新评测 2026-05-18 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Claude Sonnet 4.6 83 ▼ -0.5 #2 豆包 Pro 81.3 ▼ -1.4 #3 Grok 4 81 ▲ +31.8 #4 Claude Opus 4.7 80 ▼ -1.1 #5 Gemini 2.5 Pro 79 ▲ +0.6

事故 / 价格

0 起事故

11 项变动

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

89.8 分

第二选择

Grok 4

86.8 分

第三选择

Claude Sonnet 4.6

86.8 分

推荐第一

Claude Opus 4.7

55.8 分

第二选择

Claude Sonnet 4.6

52.9 分

第三选择

Gemini 3.1 Pro

48.8 分

推荐第一

Claude Sonnet 4.6

78.4 分

第二选择

Claude Opus 4.7

75.2 分

第三选择

Grok 4

73.9 分

推荐第一

deepseek-v3

99.7 分

第二选择

ernie-4

98.5 分

第三选择

文心一言 4.5

98.3 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 3.1 Pro

38.2 分

第三选择

Claude Sonnet 4.6

38 分

推荐第一

claude-opus-4.6

0 分

第二选择

Claude Opus 4.7

0 分

第三选择

Claude Sonnet 4.6

0 分

Claude Opus 4.7

65 分

Claude Sonnet 4.6

62.5 分

豆包 Pro

60 分

按场景看完整推荐查看完整守约排行榜

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

企业AI的障碍与路线图，安全与物理AI成焦点

TechEx北美大会第二天深入剖析企业级AI的落地困境与未来方向。会议指出大量AI项目陷入“墓地”——试点成功但难以扩展。专家围绕数据治理、安全防护和物理AI三大议题展开讨论，提出企业需建立清晰的规模化路线图，并警惕对抗性攻击等安全威胁。物理AI（如自主机器人）被视为下一波浪潮，但面临软硬件协同挑战。

资讯

文学奖得主陷入AI代笔风波：新常态降临？

英联邦短篇小说奖五位地区获奖者中，三人被指控依赖聊天机器人创作。这并非孤例，随着AI写作工具普及，文学界正面临前所未有的信任危机。从奖项评审到读者接受度，AI生成内容与人类创作的界限日益模糊，引发关于原创性、版权和文学本质的深度反思。

资讯

五分钟回顾LLM六个月进展：创新亮点与现实挑战并存

本文基于已核验的“The last six months in LLMs in five minutes”趋势报告，结合Google多源 grounding 结果，分析过去半年大模型领域的关键创新与不足。对比主流产品，提出针对开发者和企业的实用建议，并融入赢政指数v6方法论，突出execution与grounding主榜维度，展现winzheng.com作为AI专业门户的技术价值观。事实均标注来源

资讯

知名AI架构师确认加入Anthropic 谷歌多源核实消息属实

本文基于多源核实，分析知名AI技术架构师加入Anthropic的背景与影响。文章解释AI系统扩展原理，探讨对行业趋势的推动，并引用具体媒体来源，区分事实与观点，体现winzheng.com Research Lab的研究视角。

资讯

Gemini Omni 获谷歌多源核验确认趋势信号折射多模态竞争新变局

Gemini Omni 经谷歌Search grounding 确认存在多源支持，信号类型为trend。本文从赢政指数视角剖析异常信号深层原因，区分事实与观点，强调代码执行与材料约束核心维度，评估其在AI专业门户的技术价值。

资讯

谷歌I/O 2026：Gemini升级、搜索革新、智能眼镜来袭

2026年谷歌I/O大会聚焦AI全方位渗透：Gemini模型能力跃升、搜索迎来Agent交互新时代、智能眼镜秋季登场。本文详解三大核心发布，并剖析谷歌在AI竞赛中的战略意图。

资讯

马斯克指控奥特曼“窃取”非营利组织，审判却暴露双方目标相似

一场围绕OpenAI非营利性质的法律战，将埃隆·马斯克和萨姆·奥特曼推上风口浪尖。马斯克指责奥特曼窃取了他创立的非营利组织，但庭审证据显示，马斯克本人也曾试图将OpenAI商业化，甚至计划与奥特曼一起打造“最被憎恨”的超级公司。这场审判揭开了AI行业理想与资本冲突的深层矛盾。

资讯

马斯克诉奥尔特曼案内幕：庭审背后的AI伦理之争

埃隆·马斯克指控OpenAI首席执行官萨姆·奥尔特曼和总裁格雷格·布罗克曼在其非营利地位上欺骗了他。然而，法院最终驳回了马斯克的诉求。本文深度解析庭审关键细节，探讨AI治理与创始人信任危机。

资讯

从黑客少年到“铁穹”研究员，他融资2800万美元对抗AI钓鱼

Ocean，一款基于智能代理的电子邮件安全平台，宣布获得Lightspeed Venture Partners的2800万美元融资。创始人从一名青少年黑客转型为以色列“铁穹”防御系统的安全研究员，如今瞄准AI驱动的钓鱼攻击。本文深入探讨了AI钓鱼的威胁、代理型安全平台的创新之处，以及创始人的传奇经历。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

1998

创立至今

持续运营

厂商赞助

完全独立

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型
我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

想看更深的拆解，再往下走

今天该用哪个 AI 模型我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍