2016 - 2024

感恩一路有你

混淆矩阵 机器学习中训练集、验证集(开发集)、测试集如何划分?需要注意什么?

浏览量:2778 时间:2021-03-17 17:41:03 作者:admin

机器学习中训练集、验证集(开发集)、测试集如何划分?需要注意什么?

首先,我们需要理解训练集、验证集和测试集的含义。简单地说:

1。训练集用来训练模型并调整相应的参数(如权重)。验证集用于调整模型的超参数(如体系结构、训练前已确定的参数,如有多少高度)层,这就是为什么也称为开发集的原因)

3。测试集是用来获得最终模型的性能,比如精度

有了这个常识,你就知道怎么划分了。例如,如果你有一个数据集,你需要先做它

,如下图所示,只有有了这个基础,测试和验证集才有意义。

至于如何划分,我们需要看具体案例,参考斯坦福大学的深度学习课程https://cs230-stanford.github.io/train-dev-test-split.html没有具体的标准,但是尽量使验证集和测试集不要太少,例如1000000个图片集,验证和测试集不应小于10000,即1%。如果数据量不够大,通常是80-10-10的比例:

注意:随机不是完全随机的,它需要保证可重复性

好的,关这个话题就到此为止。如果遇到类似问题,如何找到正确答案?首先,你需要找到第一手资料。与其在百度上搜索,不如直接找到基本信息。在这种情况下,斯坦福学校的课程作为输入,所以你不会误入歧途。

欢迎关注“行知漫步”学习和探讨新技术的应用

问题相当广泛。这取决于具体的场景。无论是站在求职者的角度还是企业管理的角度,前者在技术方面问题不大,有借鉴意义。很难给出分析思路,也很难建立一个基于业务场景的分析系统。几乎没有参考文献。对于企业来说,数据治理通常是最大的问题,成本高且存在不确定因素。尤其是要进行数字化转型的传统企业,还有很长的路要走,坑也不少。

数据分析到底有多难?

现在互联网上有很多公共数据集,所以您不需要自己收集它们。

除了使用基本搜索引擎搜索公共数据集外,最集中的地方是kaggle。

(kaggle网站截图)

目前,kaggle上有7K个公共数据集。

此外,查找数据集的另一种技术是查找相关的公共部门网站或企业网站,以查看在确定主题后是否有可用的公共数据集。或者,寻找这一领域的论文,看看其他研究人员使用什么样的数据集(如果他们自己收集和组织数据集,研究人员通常会将其公开)。

因此,在最终分析中,AI使用的数据要么收集要么合成。

比如go AI,学习人类棋手的棋谱,就是用数据采集,而go AI就是左右打斗,自己玩,学习,就是用合成数据。

。它是对采集到的数据进行转换,并在原始数据的基础上合成新的数据。

人工智能(AI)用到的大数据是收集到的吗?

首先,测试集的标准化平均值和标准差应来自训练集。如果您熟悉Python的sklearn,您应该知道应该首先对训练集数据进行拟合,得到包括均值和标准差的定标器,然后分别变换训练集和验证集。这个问题其实很好。很多人不注意。最容易犯的错误是在划分训练测试集之前进行规范化。

第二个问题是不同归一化方法的选择,如均值方差归一化、最大最小归一化等。归一化的目的是调整每个场之间的数量级差异。均值-方差归一化可能更适合不知道数据边界在哪里的情况。最大和最小规格化相当于积分到01,这意味着您知道该字段的边界在哪里。所以我个人更喜欢均值方差的标准化。我只是凭经验说的,不一定是对的。

混淆矩阵 python字符串转换成整数 测试集和训练集怎么划分

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。