2016 - 2024

感恩一路有你

模型准确率多少合适 怎样估计训练好一个机器学习模型所需要的最少训练数据量?

浏览量:1565 时间:2021-03-15 12:34:28 作者:admin

怎样估计训练好一个机器学习模型所需要的最少训练数据量?

目前,还没有定量的计算方法来评估训练机器学习模型所需的数据量。它往往需要根据问题的实际情况、模型结构等进行评价。需要反复实验才能最终确定所需的数据量。当然,这里数据量的前提是每个数据之间的重复或相似性相对较低。否则,100个重复数据将比10个非重复数据更无用,即必须是有效数据。在这种情况下,一般来说,对数据量的需求是韩信的命令,越多越好。数据大小对模型的影响主要是泛化。数据量越大,泛化效果越好。

一个是数据的复杂性或特征的数量,另一个是模型参数的数量和模型的结构。

数据的特征编号是指描述数据所需的特征尺寸。例如,100×100彩色图片的特征尺寸是100×100×3=30000个特征编号。如果使用bag-of-words模型来表示文本的特征,那么特征数就是字典中所有单词的数量。根据经验,对于具有大量特征的数据,往往需要大量的数据来训练模型,这也意味着模型的参数也很多。对于特征维数较小的数据,通常采用简单的logistic回归模型。但是,对于维数较多但数据较少的特征,可以选择使用基于树的集合模型,如AdaBoost、随机森林等。对于具有超多维特征的数据,最直接的处理方法是使用深度神经网络,如图像、文本等。

设计的模型参数越多,需要的数据就越多。大量实验表明,它们之间存在着线性关系。此外,优良的模型结构可以大大减少参数的个数,取得较好的预测效果。例如,在提取图像特征时,全连接不如卷积层好,卷积层参数较少。

因此,在确定所需数据量时,需要反复实验,不断调整模型参数,判断模型是否存在过拟合等。根据具体情况进行具体分析。

用“机器学习”做“股票预测”能做到什么程度,靠谱吗?

这是我试图回答的问题。根据前面的答案,我可以更系统地整理出来。一般经济学家和金融学者倾向于用他们的知识来解释股票,如传统经济学中的有效市场假说(EMH)。市场是有效率的,我们不可能预测股票价格的走势。但数学家和计算机科学家认为,虽然不确定性很大,但并不意味着我们找不到线索。如果我们真的无能为力的话。为什么华尔街或伦敦金融城有那么多人能赚大钱?为什么德萧、量子基金等金融巨头会招募数学家和计算机科学家来做定量分析。所以这在一定程度上是可以做到的。

1. 当人们不注意机器学习的时候,许多科学家(特别是数学家和计算机科学家)离开他们的领域去建立对冲基金,比如文艺复兴时期的詹姆斯西蒙斯(jamessimons)(James-Simons)就在那时成立了对冲基金https://en.wikipedia.org/wiki/James哈里斯(西蒙斯),大卫。萧伯纳(https://en.wikipedia.org/wiki/David前哥伦比亚大学计算化学教授E.∗Shaw在他的对冲基金里赚了足够的钱,作为首席科学家继续他的研究。

2. 机器学习的出现降低了这件事的门槛,但仅仅用别人现成的算法是绝对不可能在市场上打败别人的。特别是对于时间序列,我们认为RNN(递归神经网络)是一个很好的选择,其实现也是正确的。也有一些工作使用RNN(Elman或LSTM)进行金融时间序列分析。我们认为仅仅使用股票价格信息是不够的。毕竟,股票市场是一个非常复杂的系统。我们从两个方面研究了这个问题。一是寻找宏观股价与微观交易者之间的相关模型。我们假设交易者是一个博弈模型,宏观数据是微观行为的体现。我们也做了一些这样的工作和实验。得到了一些初步结果。您可以参考我们的工作:http://www.sciencedirect.com/science/article/pii/s092523121602356

http://dsd.future-lab.cn/research/publications/2011/ICCCI-springer.pdf

用同一数据集训练神经网络,每次训练结果不一样,有时正确率很高,有时很低,为什么?

其实这个问题的实质是,如果我们用机器学习算法对数据集上的数据模型进行一次训练,保存模型,然后根据数据集和数据排序,使用相同的算法和相同的编号,再进行训练。第一种型号和第二种型号一样吗?

这可能是因为神经网络用增益或权重的随机值初始化,然后每个模拟在训练阶段有不同的起点。如果您希望始终保持相同的初始权重,可以尝试为初始权重修复种子以消除问题。

如果我们深入研究这个问题,我们可以根据ml算法的“确定性”来对其进行分类。当从同一个数据集进行训练时:

一个是总是生成相同的模型,并且记录以相同的顺序呈现;

另一个是总是生成不同的模型,并且记录顺序不同。

在实践中,大多数是“不确定的”。模型变化的原因可能是机器学习算法本身存在随机游走、不同权值的随机初始化、不同分量的概率分布抽样来分配优化函数。

虽然模型的“不确定性”可能会对单个训练结果造成干扰,但我们也可以用“不确定性”来确认模型的稳定性,如决策树、支持向量机(SVM)、神经网络等,最终可以通过多次迭代来确认模型的稳定性。

Solidworks有限元分析结果是否可信?

为什么不相信它?

在上述过程中,材料只需测定弹性模量、泊松比、屈服强度等相关力学性能曲线(线性或非线性)。离散化理论也是以有限元法为基础的,弹性力学等准则都是四种强度理论

从上面我们可以看出,它们背后的理论支撑是一样的。选择不同的软件无非是选择不同的计算工具。你会把你手机上的计算器计算出来的结果和其他专用计算器计算出来的结果进行比较吗?

模型准确率多少合适 鼠标点击准确性训练 训练准确率提升不上去

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。