2016 - 2024

感恩一路有你

word2vec实例详解 word2vec有什么用?

浏览量:2174 时间:2021-03-12 16:51:14 作者:admin

word2vec有什么用?

Word2vec本质上是一个矩阵分解模型。简言之,矩阵描述了每个单词和上下文中的一组单词之间的相关性。对矩阵进行分解,只取隐藏空间中每个单词的向量。

所以word2vec适用于一个数据序列,该序列的本地数据之间有很强的相关性。典型的是文本的顺序,相邻的词是密切相关的,甚至一个词的上下文都可以大致预测中间的词是什么。所学习的词向量表示词的语义,可用于分类、聚类和相似度计算。另外,word2vec的分层分类器或抽样方法实际上对流行项做了大量的惩罚,因此不会像一般的矩阵分解那样,语义相似的最后一个词就是流行词,这是word2vec的一个很好的特点。

对于短文本分类,我们直接在文档中加入所有的词向量作为文本特征来训练分类器,效果也很好。该方法也应用于word2vec的训练过程中。另外,如果改用RBF核支持向量机等非线性分类器,分类精度会更高,也符合预期。

其他序列的数据也可以这样做。我记得去年关于KDD的文章deepwalk,使用社交网络上的随机游走来生成节点序列,然后使用word2vec来训练每个节点对应的向量。但我用这种方法在QQ社交网络上做了一些实验,发现效果很不理想,这可能与QQ社交网络的复杂性有关。

我非常满意的一个应用程序是将word2vec应用到用户的应用程序下载序列。根据用户的app下载序列,将app视为一个词,也可以形成这样的序列数据,然后训练每个app对应的向量。利用这个向量来计算应用之间的相似度,效果非常好。它可以聚合真正与内容相关的应用程序,同事可以避免受流行应用程序的影响。类似的场景应该有很多,而且应用也很广泛,比如推荐系统和广告系统。

为什么word2vec出来以后,大家还在用distributional hypothesis找近义词?

Word2vec翻译是我们通常所说的词嵌入技术,主要用于自然语言处理。那么这个基本存在的意义是什么呢?简单地说,人工智能无法区分自然语言甚至原始语言所描述的意义。它需要向人工智能输入一段文本,并且必须将其转换成一个可直接用于机器学习算法的实向量,即word2vec中的V(vector)。该技术将原始单词转化为人工智能,通过分析单词的上下两个单词,甚至单词所在段落的上下文,识别向量可以更好地理解嵌入的两个单词的意思。简单的一点是,人工智能所未知的单词可以转化成他们能理解的单词。这个函数更接近同义词。然而,分布式假设技术是一种传统的同义词发现技术。应该注意的是,同义词和同义词虽然有相似的含义,但它们并不完全相同。这种差异对于人类来说也许是细微的,但是对于人工智能的快速、准确发展来说却是不可忽视的。因此,分布式假设在一些问题的处理上还将继续存在,甚至有待进一步的研究和探索。我是一个非专业的学习者,以上只是一个很浅薄的个人观点。

如何用word2vec计算两个句子之间的相似度?

就是用word2vec来寻找句子之间的相似性。

今天我想介绍一个简单有效的方法,就是用word2vec来寻找句子之间的相似度。

首先,选择同义词库,例如500000个单词。然后,使用word2vec计算所有单词的向量。然后,为每个句子构造一个200000维向量。向量的每个维度是对应单词和句子中每个单词之间的最大相似度。这样,句子的向量就被构造出来了。因为句子不太长,所以200000维向量的大多数位置的值是0,因为解是稀疏的并且没有计算挑战。

word2vec实例详解 word2vec怎么用 使用方法

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。