Word2Vec
Word2Vec是一个Estimator,顾名思义就是将给定的词(word)的序列转化成一个指定长度的向量值(vector)。Word2Vec的训练集就是一组语料,可以是任意文章的集合,通常将每个句子,即词的序列,作为一条输入项。Word2Vec的fit过程负责计算出这些语料中出现的词(word)的对应向量(vector),从而生成Word2VecModel对象。transform过程就是根据每个单词的向量值求平均算出整个句子的向量值,从而给出最终结果。
实际在自然语言处理(nlp)的任务中,我们其实更关心的就是每个词的向量表达。我们可以把这个计算词向量表达的过程,即Word2Vec的整个fit过程,想象成——把一个词作为一个给定n维空间的点镶嵌到n维空间当中去,所以这个过程又被称为词嵌入(Embedding)。Embedding也可以认为是机器对人类语料进行学习的结果,机器从语料本身(不需要任何额外标注信息)得到了每个词的特征;获取了一种在机器世界表达词的方式,这种对词的表达方式可以用到后续任何语言学习任务当中去。
more >>