对某一列进行onehot编码 NLP中如何实现对文本数据的编码？

浏览量：2001 时间：2021-03-13 05:31:29 作者：admin

NLP中如何实现对文本数据的编码？

基于一个hot、TF-IDF、textrank等的单词包

主题模型：LSA（SVD）、PLSA、LDA；

基于单词向量的固定表示：word2vec、fasttext、glove

基于单词向量的动态表示：Elmo、GPT、Bert

一个hot编码，也称为一位有效编码，主要使用n位状态寄存器编码N个状态，每个状态都有自己的状态它有独立的寄存器位，任何时候只有一个位是有效的。一种热编码是将分类变量表示为二进制向量。这首先需要将分类值映射到整数值。然后，将每个整数值表示为一个二进制向量，除整数的索引外，该向量为零，并标记为1。

对于离散的特性，如大尺寸的ID，一个热编码将导致尺寸过大和训练困难。处理这类特征的最佳方法是将其嵌入到一个固定维的实空间中。

例如，对于用户ID，在一个大数据集中可能有数以亿计的用户ID。对于这些ID，我们可以将它们映射到64维空间。模型训练实际上是在64维空间中更新用户ID和相应的嵌入向量。这样，每个用户ID可以包含的信息被包括在64维实向量中。

首先，解释一个热编码：一个热编码通常用于分类，例如K类别。使用一个热编码需要K个数字，值为0或1表示当前样本属于哪个类别。在K个数中，通常只有一个1，其余的都是0。哈夫曼编码是一种通用的编码方法，可用于数据压缩。在训练模型时，通常使用一个热编码。

欢迎使用更正。

有关数据分析和人工智能的更多信息，欢迎访问作者主页

上一篇 vim打开两个文件 vim同一个窗口打开多个文件

下一篇 nginx版本号 linux查看nginx版本