1200字范文 > gensim提取一个句子的关键词_包含关键字关键词提取的文章 - 科学空间|Scientific Spaces...

gensim提取一个句子的关键词_包含关键字关键词提取的文章 - 科学空间|Scientific Spaces...

时间：2021-02-18 04:04:29

最后，我们来看一下词向量模型$(15)$会有什么好的性质，或者说，如此煞费苦心去构造一个新的词向量模型，会得到什么回报呢？

模长的含义

似乎所有的词向量模型中，都很少会关心词向量的模长。有趣的是，我们上述词向量模型得到的词向量，其模长还能在一定程度上代表着词的重要程度。我们可以从两个角度理解这个事实。

在一个窗口内的上下文，中心词重复出现概率其实是不大的，是一个比较随机的事件，因此可以粗略地认为

\[P(w,w) \sim P(w)\tag{24}\]

所以根据我们的模型，就有

\[e^{\langle\boldsymbol{v}_{w},\boldsymbol{v}_{w}\rangle} =\frac{P(w,w)}{P(w)P(w)}\sim \frac{1}{P(w)}\tag{25}\]

所以

\[\Vert\boldsymbol{v}_{w}\Vert^2 \sim -\log P(w)\tag{26}\]

可见，词语越高频(越有可能就是停用词、虚词等)，对应的词向量模长就越小，这就表明了这种词向量的模长确实可以代表词的重要性。事实上，$-\log P(w)$这个量类似IDF，有个专门的名称叫ICF，请参考论文《TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams》。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。