谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 Claude Sonnet 4.6(+5)和 GPT-4o(-18.7)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Sonnet 4.6
+5
+5
最大跌幅
GPT-4o
-18.7
-18.7
事故报告
本周 2 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
90.6 分
第二选择
DeepSeek V3
90.5 分
第三选择
Claude Sonnet 4.6
88 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
Grok 3
48.8 分
第三选择
Claude Sonnet 4.6
46 分
推荐第一
Grok 3
79.2 分
第二选择
DeepSeek R1
79 分
第三选择
DeepSeek V3
78.3 分
推荐第一
DeepSeek V3
91.1 分
第二选择
文心一言 4.0
90.9 分
第三选择
豆包 Pro
87 分
推荐第一
Claude Sonnet 4.6
54.3 分
第二选择
豆包 Pro
53.9 分
第三选择
Claude Opus 4.6
53.9 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
AI艺术版权裁决震动科技圈:美国法院坚持"无人类无版权",创作者收益模式或重构
美国第九巡回上诉法院最新裁决确认AI生成内容不受版权保护,维持"人类作者"原则。这一里程碑式判决将深刻影响AI创作工具的商业模式和创作者收益分配,倒逼行业探索新的价值创造路径。
资讯
xAI独占X平台7亿用户数据训练Grok-5,AI行业面临"数据垄断"新困境
彭博社、金融时报等财经媒体深度报道,xAI凭借独家访问X平台实时数据训练Grok-5模型,引发行业对数据垄断的担忧。技术专家分析,这种"平台+AI"的垂直整合模式可能重塑AI竞争格局,形成难以逾越的数据护城河。
资讯
OpenAI发布AGI路线图引爆争议:73%AI研究者呼吁暂缓,马斯克称"人类末日倒计时"
OpenAI发布《AGI安全与治理路径》白皮书后,引发AI界激烈争论。路透社报道显示73%的AI研究者认为应暂缓AGI开发,马斯克等科技领袖发出强烈警告。争议核心在于:人类是否准备好迎接超级智能?
资讯
Experian揭秘金融业AI采用中的欺诈悖论
Experian发布的《2026欺诈未来预测报告》揭示了一个核心矛盾:金融机构部署AI技术防范欺诈的同时,这些技术正被犯罪分子武器化反噬自身。作为信用信息巨头,Experian身处双重角色,能深刻洞察这一悖论。报告引用FTC数据,2025年美国消费者因欺诈损失超百亿美元。AI驱动的深度伪造、自动化攻击正让欺诈更隐蔽、智能,金融业亟需升级防御策略,以平衡创新与安全。
资讯
自治AI系统离不开数据治理
当前AI安全讨论多聚焦于模型训练与监控,但随着系统日益自治,焦点正转向其依赖的数据。若数据碎片化、过时或缺乏监督,AI行为将更难预测。本文探讨数据治理在自治AI中的核心作用,分析行业背景、潜在风险及解决方案,强调高质量数据是实现可靠自治系统的关键。(128字)
资讯
燃料价格飙升,塑料或成下一个风暴中心
随着伊朗战争持续席卷中东,霍尔木兹海峡关闭导致全球化石燃料价格暴涨,汽油均价已突破每加仑4美元大关。这一地缘政治危机正从能源市场波及塑料产业。塑料作为石油化工下游产品,其原料供应中断将引发价格连锁上涨。文章分析了潜在经济冲击、行业应对策略,并探讨可持续替代方案的机遇。编者按:此事件凸显能源转型紧迫性,推动塑料回收与生物基材料创新刻不容缓。(128字)
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab