🔥 1. GLM 5.2 lần đầu vượt Claude trong benchmark bảo mật
Zhipu AI tung GLM 5.2 — model MoE 750B tham số (40B active), MIT license, context 1M tokens — và nó đánh bại Claude Code 7 điểm F1 trong bài toán phát hiện lỗ hổng IDOR trên benchmark của Semgrep. Chi phí chỉ ~$0.17 mỗi lỗ hổng tìm được, rẻ hơn 6 lần so với frontier models. Đây là lần đầu một open-weight model trên prompt trần vượt được coding agent thương mại ở tác vụ bảo mật reasoning-heavy.
Nguồn: Semgrep Blog
🤖 2. Claude Code đọc MRI, phản bác chẩn đoán của bác sĩ
Một lập trình viên dùng Claude Code (Opus 4.8) phân tích 266MB dữ liệu DICOM raw từ MRI vai — và AI kết luận “không có rách gân” trong khi bác sĩ chẩn đoán rách Grade III. Kết quả arbitration nghiêng về AI. Câu chuyện đặt ra câu hỏi khó chịu: nếu AI có thể đọc MRI tốt hơn bác sĩ ở một số trường hợp, thì niềm tin của bệnh nhân nên đặt ở đâu?
Nguồn: antoine.fi
⚡ 3. Brown University: 50+ sinh viên gian lận bằng AI, điểm số sụp đổ
Giáo sư Roberto Serrano phát hiện ít nhất 50 sinh viên gian lận trên bài thi ECON 1170. Bài take-home midterm: điểm trung bình 96/100, 40 bài hoàn hảo. Bài final thi tập trung: điểm trung bình 48/100, 22 sinh viên từng đạt 100 ở midterm không thèm đi thi. Brown im lặng, Princeton đã bỏ honor code 133 năm tuổi vì lý do tương tự.
Nguồn: EL PAÍS
🛡️ 4. Trung Quốc đưa siêu máy tính LineShine lên #1 TOP500
Lần đầu tiên sau 9 năm Trung Quốc gửi hệ thống lên TOP500 — và họ về nhất. LineShine đạt 2.198 Exaflops FP64 (Rmax) với hơn 22.000 node, 13 triệu lõi CPU, toàn bộ dùng CPU LX2 Armv9 nội địa 304 lõi. Cũng dẫn đầu cả benchmark HPCG. Tiêu thụ 42.22 MW — kém hiệu quả hơn đối thủ nhưng đủ để gây áp lực lên ngân sách DOE của Mỹ.
Nguồn: Chips and Cheese
📊 5. OpenAI ra mắt chip Jalapeño đầu tiên + Trump admin phát hành Anthropic Mythos
OpenAI trình làng chip custom đầu tiên “Jalapeño” do Broadcom sản xuất — đánh dấu bước dịch chuyển khỏi Nvidia. Cùng lúc, Trump administration phát hành Anthropic Mythos cho hơn 100 công ty và cơ quan Mỹ sử dụng, trong khi lệnh cấm xuất khẩu Anthropic sang châu Á vẫn tiếp diễn — kéo theo làn sóng startup AI châu Á tự xây model tương tự.
Nguồn: TechCrunch AI