数据缺失是指 在数据集中某些特征或变量的取值缺失或未知,无法确定的情况。缺失数据可能由于多种原因发生,例如用户未提供相关数据、数据采集过程中发生错误、数据传输或存储过程中出现问题等。在现实生活中,数据缺失是普遍存在的,例如调查问卷中有些问题没有填写,传感器故障导致某些数据丢失等。
数据缺失可以分为以下几类:
完全随机缺失(MCAR):
缺失情况相对于所有可观测和不可观测的数据来说,在统计学意义上是独立的。例如,受访者在街头接受访问时,突然沙粒吹进了眼睛导致问卷后面的问题无法回答,从而造成了数据缺失。
随机缺失(MAR):
数据的缺失仅依赖于已观察到的数据,而不依赖于未观察到的数据。即,观测出现缺失值的概率是由数据集中不含缺失值的变量决定的。
非随机缺失(MNAR):
数据的缺失依赖于未观察到的数据。即,缺失数据本身存在某种关联,比如问题设计过于敏感造成的缺失。
处理缺失数据的方法有很多种,包括删除含有缺失值的记录、使用均值或中位数填充缺失值、使用插值法、基于模型的预测方法等。选择合适的方法处理缺失数据对于确保后续分析的准确性和可靠性至关重要。