Blog
Ghi chú về backend, AI agents, và việc ship code chạy được trong production.
GPT-5.5 vs Claude Opus 4.7: Cuộc Chiến SWE-bench Định Hình AI Coding Năm 2026
GPT-5.5 vừa vượt Claude Opus 4.7 trên SWE-bench Verified với tỷ số 88.7% so với 87.6%, trong khi Claude Mythos Preview âm thầm dẫn đầu SWE-bench Pro khó hơn ở mức 77.8%. Grok Build của xAI tham chiến ở 70.8% với model rẻ hơn 25 lần. Câu chuyện thực sự không phải là ai đang thắng tuần này — mà là cuộc đua này tiết lộ điều gì về những gì AI có thể và không thể làm trong codebase thực tế, và cách chọn đúng model cho đội của bạn.
Kỷ Nguyên Multi-Agent Đã Đến: Báo Cáo Coding 2026 Của Anthropic Nói Gì Với Mỗi Developer
Báo cáo xu hướng agentic coding 2026 của Anthropic tiết lộ một sự chuyển dịch lớn: phiên Claude Code trung bình nay kéo dài 23 phút (tăng từ 4 phút), thực hiện 47 lần gọi công cụ, và 78% bao gồm chỉnh sửa đa tệp. Kết luận rõ ràng — 2025 là năm của AI assistant, 2026 là năm của AI team. Đây là những gì mọi developer cần biết.
Claude 'Dreaming' Không Phải Chiêu Trò: Cách Memory Agent Mới Của Anthropic Sửa Lỗi AI Production
Tại Code with Claude 2026 (6/5), Anthropic ra mắt ba tính năng cho Claude Managed Agents: Dreaming, Outcomes và Multiagent Orchestration. Cả ba cùng giải quyết những vấn đề khó nhất trong AI production — agent hay quên, context window bị tràn, và điều kiện kết thúc không bao giờ được định nghĩa rõ ràng. Harvey tăng tỷ lệ hoàn thành task 6 lần. Wisedocs giảm 50% thời gian xem xét tài liệu. Đây là những gì mỗi tính năng thực sự làm và tại sao nó quan trọng với developer xây dựng hệ thống thực tế.
xAI Grok Build: Arena Mode và 8 Agent Song Song Thay Đổi Gì Trong Coding Workflow Của Bạn
xAI ra mắt Grok Build ngày 14/05/2026 — CLI coding agent chạy trên Grok 4.3 với tới 8 sub-agent song song và tự động xếp hạng kết quả bằng Arena Mode. Đây là ý nghĩa của mô hình multi-agent cạnh tranh với workflow developer, lý do context window 2M token quan trọng, và cách local-first architecture thay đổi bài toán enterprise.
AI Coding Agents Cần Managed Workspaces, Không Phải Laptop Sprawl
Hot trend developer ngày 17/05/2026: coding agent đang trở thành hệ thống execution có governance. Câu hỏi chính không chỉ là model nào viết code, mà là agent chạy ở đâu, được chạm vào gì, và team review ra sao.
LangGraph Trong Thực Tế: Những Điều Tài Liệu Không Nói Cho Bạn
Tôi đã dẫn dắt nền tảng Sales Agent tại Parcel Perform với LangGraph + AWS Bedrock + Claude Sonnet 4.6. Đây là những gì tôi thực sự học được — thất bại, cạm bẫy và quyết định kiến trúc quan trọng trong thực tế 2026.
Xây Dựng MCP Server Cho Production: Bài Học Từ Thực Tế B2B Lead-Gen
MCP là API layer mới cho AI agents. Tôi đã build pp-mcp-leadgen — MCP server B2B lead-gen của Parcel Perform. Đây là những gì thiết kế tools cho LLM consumption thực sự đòi hỏi.
Từ 20 Triệu Bản Ghi/Ngày Đến AI Agents: Những Gì Backend Engineer Thường Hiểu Sai Về LLM
Tôi dành nhiều năm build pipelines 20M+ bản ghi/ngày, rồi chuyển sang lead GenAI products. Gần như mọi intuition tôi xây dựng đều cần tái hiệu chỉnh. Đây là bản đồ mental model mismatch.