word2vec实例详解 如何用word2vec计算两个句子之间的相似度?
如何用word2vec计算两个句子之间的相似度?
一般情况下,word2vec结果只能用来计算词与词之间的相似度,例如用来计算近义词。但将word2vec通过特定算法利用,也可以用来求句子与句子的相似度。有一篇文章From Word Embeddings To Document Distances,就是通过word2vec求句子与句子的相似度。
今天我要介绍一种简单而且高效的方法,也是利用word2vec求句子与句子的相似度。
首先选出一个词库,比如说50万个词,然后用word2vec跑出所有词的向量,然后对于每一个句子,构造一个20万维的向量,向量的每一维是该维对应的词和该句子中每一个词的相似度的最大值。这样就构造出了句子的向量了,由于句子不会太长,20万维的向量大部分位置的值为0,因为解是稀疏的,在计算上也没有什么挑战。
在nlp中常用的算法都有哪些?
词向量方面有有word2vec,tf-idf,glove等
序列标注方面有hmm,crf等常用的算法,也可和神经网络结合使用,可用于解决分词,词性识别,命名实体识别,关键词识别等问题!
关键词提取方面可以用textrank,lda等
分类方面(包括意图识别和情感识别等)传统的机器学习算法和神经网络都是可以的。
其他方面,如相似度比较的余弦相似度,编辑距离以及其他优化方面的动态规划,维特比等很多。
word2vec实例详解 word2vec文本分类 word2vec负采样
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。