词嵌入直观理解

1. 什么是词嵌入(word embedding)

将词/字符转化为有意义可计算的数值。比如有两组词{蜜蜂，鹅，鹰}，{直升机，无人机，火箭}，用具有意义的数值（具有词义）来表示他们。

怎样才算有词义呢？合乎现实的假设：飞得高的东西对应的数值大。比如在天空（sky）这个维度上，{蜜蜂，鹅，鹰}数值从小到大依次是鹅=2→蜜蜂=3→鹰=4;{直升机，无人机，火箭}数值从小到大依次是无人机=2→直升机=3→火箭=4

number2vector

事实上NLP的大多任务（如事件抽取、自动问答、语义角色标注）都需要词嵌入，在这里以一个情感分析任务为例

句子：我的脚打羽毛球骨折了，国庆期间只能孤独的呆宿舍，我EMO了。

目标：对该句子进行情感分类，正向或负向

5G plus+pro超强人脑: 一眼看到了骨折、孤独、EMO，很明显这是负向的嘛

为什么你会觉得这几个词的情感是负向的呢？大脑是不是有一个词典存储着词的情感属性数值呢？比如(骨折：-0.5、孤独:-0.6、EMO:-0.4、YYDS：+0.7)

怎么让机器理解呢？将句子中的情感词数学化，使得机器能够进行计算

抽出这几个词：骨折、孤独、EMO
查看情感词典X，情感词典存储着每个词对应的情感值，比如X= {(”骨折“:x1)，(”孤独“: x2)，(”EMO“: x3)，…… , （wordN,xN )}，N为词典中所有词的数量
对情感词做加权平均，大于等于0为正向情感、小于0为负向情感

\[y = (x1+x2+x3)/3\] \[label=\begin{cases} 1，y\geq0\\ -1， y<0\end{cases}\]

X是怎么获取的呢？

获取X的过程=词嵌入的过程

最合乎直觉（intuition）的假设-分布假设：相似的词往往出现在同一环境中（例如，在眼睛或检查等词附近）。出现在非常相似的分布（其相邻的词是相似的）中的两个词具有相似的含义

相似的分布：周围词在 词性、词义等方面上类似

相似的词是 “在语义空间中是邻近的”，如下图所示：正向词在一堆，负向词（bad,worst。。。）在一堆，没有实意的词在一堆(is,to,by)

distribution

当你看懂这个假设，也就意味着你已经是一个词嵌入intuition的理论大师了