上次做课程调研的问卷数据分析,卡在spss如何筛选数据这一步,瞎操作直接改动了原始数据表,几百条样本直接错乱,删错数据后没法复原,硬生生浪费了大半天的时间。
一开始完全不懂筛选的底层逻辑。
最开始傻乎乎的直接在数据视图里手动删行,看着不符合条件的样本就右键删除,当时觉得省事,完全没考虑后续需要核对原始数据、交叉验证结果的情况,等到后续导师让对比原始样本和筛选后样本的差异时,才发现原始数据已经被彻底改动,没有任何备份,之前录入的无效样本、异常值混在一起,根本分不清哪些是需要保留的有效数据,那一刻直接慌了神,所有前期录入数据的工作几乎白费,重新录入核对又耗了整整两个小时。
后来才反应过来,SPSS筛选数据根本不能手动删改原始数据,核心是用选择个案功能,只临时展示符合条件的数据,不会改动源文件。
这一步能避开九成新手坑。
当时一步步重新实操,先打开整理好的数据集,点击软件顶部菜单栏的数据选项,下拉菜单里找到选择个案,这是SPSS自带的专属筛选工具,不需要手动修改表格内容。弹出的设置弹窗里有多个筛选模式,日常数据分析最常用的就是“如果条件满足”,适配所有自定义筛选需求,我当时的需求是剔除填写时长不足十秒的无效问卷,只保留有效样本,就在条件编辑框里,选中对应的填写时长变量,设置大于十的数值条件。
设置完筛选条件后,重点是勾选“过滤掉未选中的个案”,不要点删除选项。确认设置后回到数据视图,所有不符合条件的样本行都会被画上斜杠,这些样本会被暂时屏蔽,后续做均值分析、信效度检验、相关性分析时,软件只会调取无斜杠的有效数据,原始数据完整保留,随时可以取消筛选、恢复全部样本。之前误选过删除个案,这个操作是永久性清除数据,没有撤回、复原的机会,也是我这次翻车的核心原因。
折腾好久才搞明白,很多人做SPSS数据筛选,总把临时过滤和永久删除混为一谈,觉得筛选就是剔除数据,其实正规的数据分析筛选,全程都是保留原始数据,仅临时筛选样本参与分析,这也是数据分析保留溯源性的基本要求。不管是按数值区间、性别分类、答题状态筛选,所有操作逻辑都是统一的,依托条件设定过滤样本,绝不改动原始数据源。
那天忙到深夜,保存好带筛选标记的数据文件,桌面还放着白天作废的错误数据表,就静静盯着屏幕里整齐的原始样本数据发呆。