赢政天下 — AI 模型评测 · 变化情报

Anthropic创始人兼CEO Dario Amodei在最新采访中明确表态：他并不反对开源权重模型本身，但对中国人工智能能力的快速提升感到严重担忧。Amodei认为，开源模型可能被恶意利用，而中国AI的发展速度与资源投入已构成全球性挑战。本文结合行业背景，深度解析Amodei的立场及其对AI治理格局的影响。

2026-07-28 08:23

OpenAI黑客攻击？旧戏重演，AI股跳水

OpenAI声称其遭遇的Hugging Face攻击是“前所未有”的，但类似安全漏洞早已在业界屡见不鲜。本次事件不仅暴露了AI模型托管平台的安全隐患，还引发了市

Guardoc Health借助Amazon Nova模型每日处理百万临床文档

Guardoc Health利用Amazon Nova模型（通过Bedrock）每天处理超过100万份临床文档。在医疗文档中引入AI需要进行精确的风险平衡：错误

赢政指数

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 ·

完整排行榜 →

赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计方法论 →

最新资讯

查看全部 →

资讯 07-28 22:23 TC

递归超级智能与亚马逊签署4亿美元算力协议

递归超级智能（Recursive Superintelligence）与亚马逊云服务（AWS）签署价值4亿美元的算力采购协议，这笔支出占该公司迄今融资总额的大部分。此举凸显了前沿AI公司对大规模算力的迫切需求，也标志着云计算巨头在AI基础设

资讯 07-28 21:23 MIT

OpenAI黑客攻击？旧戏重演，AI股跳水

OpenAI声称其遭遇的Hugging Face攻击是“前所未有”的，但类似安全漏洞早已在业界屡见不鲜。本次事件不仅暴露了AI模型托管平台的安全隐患，还引发了市场对AI行业整体风险的重新评估，导致相关股票集体抛售。分析人士指出，这并非孤立事

资讯 07-28 20:23 AIN

Guardoc Health借助Amazon Nova模型每日处理百万临床文档

Guardoc Health利用Amazon Nova模型（通过Bedrock）每天处理超过100万份临床文档。在医疗文档中引入AI需要进行精确的风险平衡：错误可能导致Medicare索赔被拒、审计罚款、诉讼风险等。本文深度解析该技术应用、

资讯 07-28 20:17 NF

Adam Schiff拟推两法案限制AI生成政客形象与付费影响者内容

加州参议员Adam Schiff计划于2026年7月28日前后推出两项联邦法案，分别是《促进影响者免责真实性法案》和《AI广告法案》。前者要求政治委员会付费的视听内容必须披露赞助，后者将现有禁止候选人冒充的规定扩展至AI生成内容。法案针对2

资讯 07-28 19:24 WD

《纽约时报》能否从AI霸主手中拯救新闻业？

2023年，《纽约时报》起诉OpenAI和微软侵犯版权，指控其未经授权使用数百万篇新闻报道训练AI模型。至今，该报已为这场诉讼花费逾2000万美元，出版人A.G. Sulzberger誓言不会退缩。这不仅是法律纠纷，更是关乎新闻业生存的战役

资讯 07-28 18:24 MIT

三星芯片工程师集体跳槽，SK海力士成人才黑洞

三星半导体部门工程师李（Lee）最近下班后不再加班，而是直奔家里修改求职申请——他正试图跳槽到竞争对手SK海力士。这种现象并非个例。随着AI内存市场格局剧变，SK海力士凭借HBM技术优势大举扩张，从三星挖走了大量核心人才。本文深度剖析这场韩

资讯 07-28 18:23 WD

硅谷AI新贵IPO在即，非营利组织已备好“接盘”

随着Anthropic和OpenAI等AI公司预计在未来一两年内上市，其员工将凭借股票期权成为新一代亿万富翁。非营利组织正积极筹备，希望这些财富能流向教育、医疗和气候变化等公益领域。“这将是一场疯狂的旅程，”一位非营利领袖表示。本文编译自W

资讯 07-28 17:23 AIN

亚美尼亚的AI赌注：不是芯片，而是计算主权

亚美尼亚，一个国土狭小、经济不算发达的国家，却在全球AI浪潮中走出了一条独特道路。不同于各国争相投入芯片制造，亚美尼亚选择押注「计算主权」——通过掌控计算资源与数据基础设施，在云端构建属于自己的AI生态。这一策略不仅让亚美尼亚成为AI产品的

资讯 07-28 14:23 WD

Hugging Face 被曝大量深度伪造裸照，平台监管陷困境

研究人员在 Hugging Face 平台上测试主流图像编辑模型，发现可轻易生成逼真的深度伪造裸照。通过对 1000 个图像编辑提示的分析，揭示了用户如何利用这些工具进行不当创作。这一现象凸显了开源 AI 平台在内容安全与伦理治理方面的重大

资讯 07-28 14:18 NF

Nvidia微软SpaceX成立开放AI安全联盟排除OpenAI谷歌等关键玩家

Nvidia、微软与SpaceX于2026年7月27日宣布成立Open Secure AI Alliance，联合Palantir等30余家美欧科技企业，聚焦开放权重模型的安全工具开发。该联盟回应Hugging Face遭流氓OpenAI代

资讯 07-28 13:23 TC

Cursor印度大举出击：本地定价抢占市场

Cursor宣布印度已成为其全球第三大市场，将通过本地化定价、扩大本地招聘和企业销售团队深耕印度市场。这是它在即将被SpaceX收购前的关键布局，意在巩固并扩大其在高速增长的印度开发者生态中的份额。

资讯 07-28 06:25 TC

Claude共享聊天数据疑泄露至Google

近日，有用户发现Anthropic旗下AI助手Claude的“共享聊天”功能存在隐私漏洞——用户通过该功能生成的公开链接可能被Google搜索引擎索引，导致私密对话和Artifacts内容意外曝光。该问题源于共享链接缺乏robots.txt

深度横评

查看全部 →

横评 07-28

Claude Sonnet 4.6代码执行暴跌22分材料约束反升25.7分

Claude Sonnet 4.6今日Smoke评测中代码执行从97.00分跌至75.00分，材料约束从60.20分升至85.90分，主榜仅从80.44分微降至79.91分。单日10题抽签导致的波动可能是主因，需持续观察。

横评 07-28

DeepSeek V4 Pro代码执行暴跌25分，材料约束反升26.8分

DeepSeek V4 Pro今日Smoke评测中代码执行从100.00降至75.00，材料约束从68.20升至95.00，主榜仅微降1.7分至84.00。工程判断同步下滑19.5分。单日10题抽样下，此类波动需区分随机题目难度与模型真实能

横评 07-28

Gemini 3.1 Pro以100分居首：2026-07-28 Smoke快测数据简报

2026-07-28 赢政指数 Smoke 快测覆盖 11 个模型，Gemini 3.1 Pro 以 100 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

WDCD 守约排行

测什么：AI 在多轮对话中是否守住你最初的指令

#1 Grok 4 94.2 #2 DeepSeek V4 Pro 87 #3 GLM-4.6 83.9 #4 Claude Opus 4.7 83.5 #5 Gemini 3.1 Pro 83.3 #6 GPT-o3 81.2 #7 Claude Sonnet 4.6 74.9

查看完整守约排行 →

Research Lab

3大模型翻译对决：第31周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 381 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #247: Grok 4 Leads with Negative Decay as Average Instruction Decay Narrows to -1.8%

WDCD Run #247 (2026-07-26) evaluated 11 models across three dialogue rounds, recording an average co

WDCD Run #242: Grok 4 and GLM-4.6 Hold Zero Instruction Decay as Gemini 3.1 Pro Collapses at -100%

WDCD Run #242 (2026-07-22) evaluated 11 models across three-round multi-turn dialogues, recording an

进入 Research Lab →

赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab