GPT-5.5 vs Claude Opus 4.7: Cuộc Chiến SWE-bench Định Hình AI Coding Năm 2026

Bảng xếp hạng SWE-bench Verified đã thay đổi ngôi đầu vào tháng 5/2026. GPT-5.5 vượt qua Claude Opus 4.7 với tỷ số 88.7% so với 87.6% — cuộc đua benchmark cạnh tranh nhất mà thế giới AI coding từng chứng kiến. Đồng thời, Claude Mythos Preview âm thầm dẫn đầu SWE-bench Pro khó hơn ở mức 77.8% tính đến ngày 19/5, trong khi Grok Build mới ra mắt của xAI tham chiến ở mức 70.8% với model có giá rẻ hơn 25 lần so với các đối thủ frontier. Con số đang thay đổi nhanh hơn cộng đồng developer có thể theo kịp. Câu hỏi thực sự không phải là ai đang thắng tuần này — mà là cuộc đua này tiết lộ điều gì về những gì AI thực sự có thể và không thể làm trong một codebase thực tế ngay lúc này, và cách chọn đúng công cụ cho đúng công việc.

SWE-bench Thực Sự Đo Lường Gì — Và Cố Tình Bỏ Qua Gì

SWE-bench Verified trình bày cho model một issue GitHub thực từ một dự án mã nguồn mở — NumPy, Django, scikit-learn — và yêu cầu tạo ra một bản vá code làm cho các test đang fail trở thành pass. Mỗi task được pre-verified bởi người chú thích để xác nhận nó có câu trả lời rõ ràng, có thể giải quyết được. Model nhận được toàn bộ context repository, mô tả issue, và quyền truy cập công cụ: đọc file, chạy test, tìm kiếm codebase. Setup đó thực sự nghiêm ngặt. Điểm mấu chốt là những gì benchmark cố tình loại trừ: phát triển greenfield, quyết định kiến trúc đa file, xây dựng từ spec sản phẩm mơ hồ, hoặc bất cứ điều gì đòi hỏi phán đoán về những gì cần xây dựng ngay từ đầu. SWE-bench Verified là benchmark sửa bug khó nhất thế giới. Nó không phải là proxy tổng quát cho khả năng kỹ thuật phần mềm, và coi nó như vậy dẫn đến quyết định công cụ sai lầm.

Bảng Xếp Hạng Tháng 5/2026: Cuộc Đua Sát Nút Ở Đỉnh

Tính đến tuần thứ ba của tháng 5/2026, bảng xếp hạng SWE-bench Verified là: GPT-5.5 dẫn đầu với 88.7%, Claude Opus 4.7 đạt 87.6% (ra mắt ngày 16/4), GPT-5.3 đạt 85.0%, Gemini 3.1 Pro đạt 80.6%, và grok-code-fast-1 của Grok Build đạt 70.8%. Khoảng cách giữa hai vị trí đầu — chỉ 1.1 điểm phần trăm — nằm trong biên độ mà việc lựa chọn task trong thực tế có thể đảo ngược kết quả tùy thuộc vào codebase cụ thể và loại vấn đề. Cả OpenAI lẫn Anthropic hiện không có lợi thế khả năng quyết định trên SWE-bench Verified ngay lúc này. Cuộc đua ở frontier thực sự đang hòa nhau — điều đó tự nó là một tuyên bố đáng chú ý về tốc độ của mười hai tháng qua.

SWE-bench Pro: Bài Kiểm Tra Khó Hơn Phân Biệt Khả Năng Thực

SWE-bench Pro của Anthropic là biến thể đòi hỏi hơn: task dài hạn hơn, spec mơ hồ, thay đổi đa file với các phụ thuộc dây chuyền. Trên benchmark này, Claude Mythos Preview dẫn đầu với 77.8% tính đến ngày 19/5 — một model chưa phát hành đại trà. Claude Opus 4.7 đạt 64.3%, GPT-5.5 đạt 58.6%, và GPT-5.3 Codex đạt 56.8%. Sự phân tán ở đây rộng hơn và có ý nghĩa hơn: 19 điểm phần trăm giữa model preview dẫn đầu và đối thủ production gần nhất. Đây là nơi câu chuyện khả năng thực sự tồn tại.

SWE-bench Pro quan trọng hơn cho các quyết định thực tế vì nó kiểm tra những gì task kỹ thuật thực tế thực sự trông như thế nào: yêu cầu có khoảng trống, thay đổi lan rộng qua các file, phán đoán khi spec không bao gồm mọi edge case. Điểm 64.3% của Claude Opus 4.7 so với 58.6% của GPT-5.5 trên benchmark này là khoảng cách thực 5.7 điểm. Đối với task dài, phức tạp, đa file, sự khác biệt đó xuất hiện trong throughput production. Bước nhảy mà Opus 4.7 tạo ra trên Pro — từ 53.4% lên 64.3% — là mức tăng 11 điểm trên các task khó hơn, và nó tương quan trực tiếp với benchmark enterprise của Rakuten cho thấy số lượng task production được giải quyết tăng 3 lần so với Opus 4.6. Kết quả production theo dõi benchmark khó hơn, không phải benchmark dễ hơn.

Grok Build: Luận Điểm Chi Phí Rẻ Hơn 25 Lần

Grok Build của xAI ra mắt ngày 14/5 trong early beta với grok-code-fast-1, một model được xây dựng chuyên biệt cho coding ở $0.20 cho mỗi triệu token đầu vào — rẻ hơn 25 lần so với Claude Opus 4.7 ở $5 cho mỗi triệu. Đối với các đội chạy hàng trăm phiên agent song song với trung bình 47 lần gọi công cụ và 23 phút mỗi phiên, sự khác biệt kinh tế là quyết định. Một đội chạy 100 phiên agent hàng ngày trả khoảng $230 mỗi ngày cho Grok Build so với $5,750 cho Claude Opus 4.7 cho mức sử dụng compute tương đương. Khoảng cách chi phí đó tài trợ cho rất nhiều thử nghiệm và thực thi song song.

Hai thuộc tính khác của Grok Build thay đổi phép tính thêm nữa. Kiến trúc local-first của nó không gửi source code nào đến máy chủ của xAI — đối với các đội dưới sự bảo vệ IP nghiêm ngặt, đó không phải là tính năng ưu thích mà là điều kiện tiên quyết nhị phân. Arena Mode chạy tới tám agent song song tự động, xếp hạng đầu ra trước bất kỳ đánh giá nào của developer, và đưa ra kết quả tốt nhất. Cược kiến trúc cốt lõi: chạy nhiều agent rẻ hơn với đánh giá tự động tích hợp, và đạt hoặc vượt chất lượng đầu ra của một lần gọi frontier đắt tiền. Chúng ta chưa có dữ liệu công bố xác nhận sự đánh đổi này ở quy mô, nhưng giả thuyết giờ đây có thể kiểm chứng được bởi bất kỳ đội nào sẵn sàng chạy thử nghiệm.

Những Gì Developer Thực Sự Nên Đo Lường

Ba điểm dữ liệu production từ tháng 5/2026 hữu ích hơn bất kỳ vị trí bảng xếp hạng nào. Thứ nhất, cải thiện giải quyết task 3 lần của Rakuten với Opus 4.7 — workload enterprise thực, không phải task tổng hợp, trên công việc kỹ thuật thực. Thứ hai, 85% developer chuyên nghiệp hiện sử dụng công cụ AI coding thường xuyên, có nghĩa là ngay cả sự khác biệt chất lượng mỗi phiên nhỏ cũng tích lũy qua hàng triệu phiên mỗi ngày. Thứ ba, phiên Claude Code trung bình 47 lần gọi công cụ và 23 phút, xác nhận mẫu sử dụng chủ đạo là các luồng công việc agent mở rộng, không phải completion một lần. Một model hoạt động tốt trên task sửa bug độc lập 10 phút có thể hoạt động rất khác khi chạy tự chủ 23 phút trên codebase trực tiếp đa file với trạng thái phụ thuộc lẫn nhau.

Ba Quyết Định Mỗi Đội Kỹ Thuật Đang Phải Đối Mặt Ngay Bây Giờ

Quyết định một: chất lượng so với chi phí. Nếu các task chính của bạn phức tạp, đa file, và dài hạn — loại mà SWE-bench Pro nhắm đến — Claude Opus 4.7 là người dẫn đầu production hiện tại với biên độ có ý nghĩa, với Claude Mythos Preview cho thấy trần đang hướng đến đâu. Nếu các task của bạn được đặc tả tốt, độc lập, và có thể song song hóa, cấu trúc chi phí của Grok Build xứng đáng được thử nghiệm thực sự, không phải bị bác bỏ dựa trên điểm benchmark thô thấp hơn.

Quyết định hai: kiến trúc quyền riêng tư. Grok Build hiện là agent coding production duy nhất công khai đảm bảo không truyền codebase. Đối với các đội trong ngành được quản lý hoặc với codebase nhạy cảm về IP, đây không phải là cột benchmark — đây là ràng buộc mua sắm mà không có điểm SWE-bench nào có thể ghi đè. Nếu đội pháp lý hoặc bảo mật của bạn đã gắn cờ việc truyền code dựa trên cloud, Grok Build có thể là tùy chọn duy nhất bất kể điểm của nó nằm ở đâu trên bảng xếp hạng.

Quyết định ba: một agent hay đội agent. Nếu bạn đang chạy kiến trúc multi-agent — một orchestrator điều phối hàng chục sub-agent chuyên biệt song song — sự khác biệt chi phí 25 lần giữa Grok Build và Claude Opus 4.7 trở thành biến số chủ đạo, không phải khoảng cách benchmark 17 điểm. Ở mức độ song song đủ lớn, bạn có thể chạy nhiều agent hơn, lặp nhanh hơn, và tự động đánh giá đầu ra kỹ lưỡng hơn với model rẻ hơn so với những gì bạn có thể đủ khả năng làm với model đắt tiền hơn. Lựa chọn model và lựa chọn kiến trúc ngày càng là cùng một quyết định.

Kết Luận

Cuộc đua SWE-bench tháng 5/2026 đang tạo ra tiến bộ thực — 77.8% trên SWE-bench Pro từ Claude Mythos Preview đại diện cho khả năng thực không tồn tại sáu tháng trước. Nhưng bảng xếp hạng không phải là khuyến nghị. GPT-5.5 ở 88.7% Verified là câu trả lời đúng cho một số đội. Claude Opus 4.7 ở 64.3% Pro là câu trả lời đúng cho các đội làm công việc kỹ thuật phức tạp, dài hạn. Grok Build ở $0.20/M với thực thi local-first là câu trả lời đúng cho các đội nhạy cảm về chi phí hoặc bị ràng buộc về quyền riêng tư đang chạy đội agent song song. Developer khai thác nhiều giá trị nhất trong năm 2026 sẽ không phải là những người theo dõi model nào đang dẫn trước 1.1 điểm phần trăm tuần này. Họ sẽ là những người hiểu benchmark thực sự đo lường gì, ghép nó với hồ sơ task thực tế của họ, và xây dựng cơ sở hạ tầng agent để chạy đúng model ở đúng quy mô.