gbdt算法通俗理解 使用sklearn做文本分类,速度比较慢,有什么优化方法?
浏览量:1596
时间:2021-03-17 03:52:59
作者:admin
使用sklearn做文本分类,速度比较慢,有什么优化方法?
首先,我想你可以打印出每一步的时间,看看哪一步需要更多的时间,并尝试找到优化方法。让我先谈谈我想到的几点。
在sklearn的一些分类方法中,您还可以尝试在其参数中使用multi-process选项。
如果您的培训数据很大,请先尝试LSA、LDA和其他模型来降低维度。这两种方法在sklearn中也可用。
此外,在countvectorizer中,设置mintf和maxtf参数以避免过多的字。虽然这可能对速度影响很小,但可能会对结果产生影响。
如果你在处理中文文本,必须有一个好的停止词和字典。
暂时就这么多了。
找个咨询关于机器学习算法分类的几个问题?
小数据集不适合神经网络,因为数据集太小,很难训练出理想的结果。对于小数据集,可以尝试使用传统的机器学习算法,如支持向量机、决策树等。只要数据集的特征差异明显,就很容易学习到合适的模型。
gbdt算法通俗理解 gbdt如何实现分类的 gbdt算法原理
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。