互联网从业者充电站
4 小时前
Datacurve 新出的 DeepSWE,题目全部从零手写,不像之前题目来自于GitHub 公开 PR,这个测试集分差拉的很大。
Top 5:GPT-5.5 70%,GPT-5.4 56%,Opus 4.7 54%,Sonnet 4.6 32%,Gemini 3 Flash 28%
Kimi K2.6 24%,MiMo-V2.5-Pro 19%,GLM-5.1 18%,DeepSeek-V4-Pro 8%。
强烈建议国产模型公司,针对这种歧视行为,拿起法律武器,坚决维护自身权益。
Home
Powered by
BroadcastChannel
&
Sepia