边缘填充算法 python pandas如何对指定的多列填充缺失值?
python pandas如何对指定的多列填充缺失值?
熊猫.DataFrame.fillna()函数用于填充数组中的Nan值,但此方法不会更改原始数组,而是返回一个新数组。下面是一个示例演示:
我们可以发现,在用fillna方法填充缺少的值之后,将返回一个填充的数组,但原始数组没有更改。
如果我们想改变原来的数组,我们需要重新赋值
填写指定的多列缺失值,就像填写整个数组的缺失值一样,我们需要重新赋值。
EXCEL查找并填充缺失数值?
Match函数可以找到指定值在数组中的位置
address可以根据行号和列号返回单元格地址
indirect可以根据文本引用单元格,替换C1中从顶部获得的1,并将其组合成C:C,然后在外部设置一个和,得到C的和columns
公式:
=sum(indirect(replacement)(address(1,match)(“streaky pork”,A1:D1,0),4)在数据挖掘过程中,原始数据往往会丢失,因此数据处理在机器学习中会占用更多的时间。
没有固定的方法来处理缺失值。通常,根据业务需求和数据集本身选择有效的处理方法。通常使用以下方法。
直接删除-如果数据库相对较大,您可以根据需要删除它。当然,您还应该考虑删除后原始数据集是否会受到很大影响。
填写数据~这是一种常见的处理方法。如何填写数据要根据业务和数据来判断。如果缺失的数据是数值数据,可以考虑填写整体数据的均值、中位数和模式。如果有时间序列,可以考虑缺失样本前后样本的平均值,也就是离缺失样本最近的两个样本的平均值
如果缺失值只占数据的5%以下,那么缺失值对数据的影响很小,各个样本之间的差异也很小缺少处理方法。最好是简单的处理,比如填充均值,或者直接删除缺失的案例,但是均值填充不能利用缺失数据中可能包含的有效信息,删除案例可能会对数据结构的健全造成不利影响(例如,绩效考核时,不合格的人没有结果,形成缺项,因此删除缺项会使数据缺乏代表性,只有合格的人,没有不合格的人)。与均值插补法相比,回归插补法更准确(仅限于缺失值不多的情况,否则回归会产生偏估计)。如果存在大量缺失值,建议使用EM算法。通过模拟研究,许多研究者表明,这种插补方法可以得到最准确的结果。其操作是在SPSS菜单中选择“分析缺失值分析”,弹出对话框,在右边的变量框中选择要填充的缺失数据(注意变量类型),在估算方法中选择em,然后单击em,将填充的数据保存为新的数据集
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。