Cơ chế attention trong transformer hoạt động như một phép tra cứu có trọng số: mỗi token phát ra một query, so sánh với key của mọi token khác, rồi tổng hợp value tương ứng — tất cả diễn ra song song trong một ma trận. Vaswani và cộng sự (2017) chứng minh rằng chỉ cần attention là đủ để đạt kết quả dịch máy tốt nhất thế giới lúc bấy giờ, không cần hồi quy.[1]Attention in the transformer works as a weighted lookup: each token emits a query, compares it against every other token's key, then aggregates the corresponding values — all in parallel via matrix multiplication. Vaswani et al. (2017) showed that attention alone was sufficient for then-state-of-the-art machine translation, with no recurrence needed.[1]
Mỗi attention head học một "mẫu quan hệ" khác nhau — cú pháp, đồng tham chiếu, vị trí tương đối. Olsson và cộng sự (2022) phát hiện ra induction heads: các cặp head hoạt động phối hợp để sao chép chuỗi đã thấy trước đó, nền tảng của in-context learning.[2]Each attention head learns a different relational pattern — syntax, co-reference, relative position. Olsson et al. (2022) identified induction heads: pairs of heads that cooperate to copy previously seen sequences, forming the substrate of in-context learning.[2]
Câu hỏi mở: liệu attention có thực sự nắm bắt được "ý nghĩa về" (aboutness) của từ, hay chỉ là tương quan thống kê (correlation) được học từ dữ liệu lớn? Đây là câu hỏi trung tâm nối AI với triết học ngôn ngữ và khoa học thần kinh.The open question: does attention genuinely capture semantic aboutness, or is it sophisticated statistical correlation learned from scale? This is the central bridge question linking AI to philosophy of language and neuroscience.
→ Widget sắp ra mắt: Attention X-Ray — quan sát từng head attention trong thời gian thực. / → Coming widget: Attention X-Ray — observe each attention head in real time.