Attention Mechanism Understanding

 # Attention Mechanism

3Blue1Brown观后感


## Query

特征询问阵列


## Key

(输入本征)特征分量


Q*K = w => 答案相关性权重矩阵

## Value

特征信息量 追加调整量 (新注入内容)


## 结果

w*V + embedding => new embedding with prev context knowledge


## DeepSeek

Value 的本质是信息本身,是需要被加权聚合的信息源。它通过注意力权重被动态选择和聚合,最终生成与任务相关的上下文表示。Key 和 Query 共同决定“关注哪里”,而 Value 决定了“关注的内容是什么”。这种分离设计使模型能更灵活地学习不同层面的特征表达。

评论

此博客中的热门博文

Windows下ShadowSocks客户端安装和配置 顺带KCP

How User Friendly is a MacOS

How to Install KeePass on M1 Mac