Attention Mechanism Understanding
# Attention Mechanism
3Blue1Brown观后感
## Query
特征询问阵列
## Key
(输入本征)特征分量
Q*K = w => 答案相关性权重矩阵
## Value
特征信息量 追加调整量 (新注入内容)
## 结果
w*V + embedding => new embedding with prev context knowledge
## DeepSeek
Value 的本质是信息本身,是需要被加权聚合的信息源。它通过注意力权重被动态选择和聚合,最终生成与任务相关的上下文表示。Key 和 Query 共同决定“关注哪里”,而 Value 决定了“关注的内容是什么”。这种分离设计使模型能更灵活地学习不同层面的特征表达。
评论
发表评论