机器学习中对于训练集中常见的缺省值的处理方法

el/2024/4/19 23:23:16

由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。


http://www.ngui.cc/el/5179171.html

相关文章

online learning的介绍

什么是Online Learning 准确地说,Online Learning并不是一种模型,而是一种模型的训练方法,Online Learning能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率…

TensorFlow的55个经典案例

导语:本文是TensorFlow实现流行机器学习算法的教程汇集,目标是让读者可以轻松通过清晰简明的案例深入了解 TensorFlow。这些案例适合那些想要实现一些 TensorFlow 案例的初学者。本教程包含还包含笔记和带有注解的代码。 第一步:给TF新手的教…

Pandas.DataFrame删除行和列

本文通过一个csv实例文件来展示如何删除Pandas.DataFrame的行和列数据文件名为:example.csv内容为: |date|spring|summer|autumn|winter||----||2000|12.2338809|16.90730113|15.69238313|14.08596223||2001|12.84748057|16.75046873|14.51406637| 13.5037456|2002|13.558175|…

GDBT详解

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力&#xff0…

在anaconda中安装tensorflow

本文主要介绍如何在Windows下安装TensorFlow。当然建议还是在linux下安装,在windows下开发不太方便。 相关背景 网上现有的方法都是教如何在windows下安装虚拟机或者安装docker来完成TensorFlow的安装。 得益于google目前已经支持直接在windows直接安装&#xff…

归一化,标准化,正则化的概念和区别

归一化(Normalization) 1.把数据变为(0,1)之间的小数。主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。 2.把有量纲表达式变换为无量纲表达式&…

dropout的用法

dropout的作用是增加网络的泛化能力,可以用在卷积层和全连接层。但是在卷积层一般不用dropout, dropout是用来防止过拟合的过多参数才会容易过拟合, 所以卷积层没必要, 但是是可以用的,要小心翼翼

LRN局部相应归一化

本笔记记录学习 LRN(Local Response Normalization),若有错误,欢迎批评指正,学习交流。 1.侧抑制(lateral inhibition) 2.计算公式 Hinton在2012年的Alexnet网络中给出其具体的计算公式如下: …