形而上学,不行退学?机器学习预防高中生辍学

亿万先生娱乐 形而上学,不行退学?机器学习预防高中生辍学

  长文慎入!为获得最佳阅读体验,您可跳过其余冗长部分,重点关注“ML方法和技术设定”。

  在美国纪录片《高中卧底》中,有个可以称为问题少年的高中生丹妮,她基本门门挂科,但她还梦想着辍学去赚大钱。类似的情况在丹妮所在的小镇高中并不少,该高中辍学率竟高达24%。学校虽然构造了一个简单的辍学预测指标,但远远还没有建立起一个完整的帮扶干预体系。接下来,我们小组将要介绍一篇用机器学习方法来构造预警指标、预测辍学概率并提供干预建议的论文。

  ff86ccfd430f463bbfdadd2b87e8c1a6.jpeg

  1c2ab2bfe7a143cbb99318efc7603a95.jpeg

  一、引言

  2015年,美国高中毕业率仅为83.2%,远低于同类发达国家,高中生辍学已成为教育中的一个重要问题,并引起研究者和政策制定者的关注。

  当前用来预测高中生的辍学概率的早期预警指标(early warning indicators),仅包含了学生的学习成绩和在校表现,因此预测效率并不高。据此,文章作者提出采用高维的数据,并用机器学习的方法来进行预测分析,以期获得更高的预测效率。

  余文如下:首先,介绍所用数据;其次,介绍机器学习方法和技术设定;再次,呈现预测结果、稳健性检验、政策干预建议;最后,总结和思考。

  二、数据

  论文数据来源于美国高中追踪调查(HSLS:09),该数据集以2009年作为基线调查年份,目前已做了两次跟踪调查(2012年和2016年 )和一次只针对学生和家长的回访(2013年)。HSLS:09包括940所学校、共21440名9年级(美国的高一)的学生,收集了9年级学生以及他们的父母、数学老师、科学老师、校长和学校顾问的相关信息。

  结果变量:是否曾辍学(Ever drop),若学生至少有一次辍学经历则取值1,否则取值为0。

  预测变量:来源于2009年调查中9年级学生以及他们的父母、数学老师、科学老师、校长和学校顾问的问卷信息,是一个多维数据。

  三、ML方法和技术设定

  (一)ML方法

  本文用机器学习处理高维度数据集,以期能提高学生辍学预警系统的效率。第一部分运用有监督的机器学习预测出会辍学的学生,第二部分用无监督学习将被预测为会辍学的学生分组进而可进行有针对性的干预。

  主要运用的机器学习方法包括Post-LASSO, Boosting, Support Vector Machine.

  LASSO-OLS: 通过引入惩罚项(λ),最小化目标函数,得到最有预测能力的变量

  ce1ac29f1ca94a6b9c0be2881ea4f991.png

  SVM:可被视为带有kernel的有惩罚的逻辑回

  归,最常用的kernel为Gaussiankernel。

  10638cfdd24c46e1a90e190896faff60.png

  fb492c576f03417d8d500aad4212b0f9.png

  Boosting: 是一组分类器的组合,实现步骤为:(1)最初对所有观测值赋相同权重,(2)估计出第一个分类器,(3)计算分类错误,增加分类错误的观测值的权重,(4)用新的权重估计第二个分类器,(5)重复(3)-(4)步骤直到有M个分类器,(6)将M分类器组合,给予预测表现好的分类器更大的权重。

  三种方法中,Post-LASSO具有较好的可解释性(interpretability),而SVM,Boosting灵活性(flexibility)较高。

  (二)技术设定

  1.为了应对过拟合(over-fitting)的问题,即很强的样本内预测能力和很弱的样本外预测能力。本文采用5-fold交叉检验法(cross validation, CV)将数据分为三组training sample (60%), cross validation sample (20%), test sample (20%), 在训练数据中估计出模型,在交叉检验数据中通过最优化目标函数来选择模型,最后用测试数据来报告样本外表现。

  2.关于模型表现的度量,由于本文被解释变量为分类变量,可采用的指标包括pesudo-R2,McFadden-R2,Accuracy,Precision,Specificity,Sensitivity(Recall)。前二者通过所设模型的预测表现和常数模型比较得到;后四者则由“confusion matrix”和公式计算而得,其计算过程如下表所示。

  f2015b895a80491e8827e46d9eaf1c56.png

  ea8d658a5b504aa5a7ea9a6f933a53fb.png

  2ea8c009e0e9479a85a2806758ad9d0b.png

  650fa4fab5a944059f039199ef3357d4.png

  本文主要用的是Recall这一指标,原因有三:(1)该指标反映实际辍学的学生中被预测出来的比例,该指标表现不佳带来的实际后果较其他错误严重;(2)数据的非平衡,辍学学生仅占学生中的小部分,若仅用Accuracy作为标准则常数模型就会得到很高的准确率;(3)该指标与微观受约束最优化模型一致。

  第(3)点原因,也是本文的重要创新点之一,通过微观理论讨论来证实所选指标的合适性,避免了模型表现衡量标准选择的随意性,因而值得介绍。

  (三)指标选择的微观基础

  假定学校的目标函数是最小化预期的辍学率,面临的预算约束是预防辍学项目花费(生均花费乘以纳入项目的学生人数)不超过总预算。将学生辍学的概率p(s i, ti)定义为学生类别(si)和干预(ti)的函数,方便起见,将学生类型设为分类变量,si=1表示有辍学风险的学生,si=0表示没有辍学风险的学生。进一步假定p(0, ti)=0,即没有辍学风险的学生不会辍学;即接受干预可以降低辍学概率,则学校的最优化问题如下式所示:

  16314fc6c7884743aed8f6b083f3f287.png

  目标函数是有辍学风险的学生中被识别出来并进而接受干预后仍辍学的概率和未被识别出来进而未接受干预的学生辍学的概率的加权平均。

  为了得到封闭表达式(closed-form expression),同样假设ti为分类变量,即是否参加干预项目。同时,辍学概率函数为线性形式:

  则目标函数可表示为:

  df244973c8fb4df297aa1d9a9acc1ceb.png

  当然也可假设辍学概率函数为关于t的规模报酬递减形式,如:

  则目标函数可表示为:

  2b060f492ca94ef7918610fa8a3428e8.png

  从而给定预算约束最优化目标函数等价于最大化Recall。

  尽量识别出有辍学风险的学生是预警系统的目标,但应将多大辍学概率的学生纳入干预项目又面临预算约束问题,ROC曲线刻画两类错误的关系,该部分内容即为选择ROC曲线上的最优点提供了理论基础。

  cb8e01a5d5bc412a97ebf5d54ab649b9.png

  四、实证部分

  (一)基准模型

  作为对照,作者使用以往研究常用的指标(如学生成绩、出勤率、人口统计学指标、学校特质和家庭背景等)和基准模型进行估计。Table 1显示,用Logit模型进行估计的精确度(Accuracy)虽然较高,但是Recall rate非常低。OLS和Probit模型甚至表现更差一些。即使增加样本量,甚至将全部观测值用于训练,也不能显著提高Recall rate。另外,加入交互项来考虑个体异质性,也并无显著增益效果。

  eef8a7b3b0504dc48bfceafb5b6ba9f6.jpeg

  为了提高预测效果,作者引入机器学习算法和高维数据。

  (二)机器学习预测表现

  Table 3显示了不同机器学习算法的样本外表现。

  27e2e7f5088e4a1a9eefa166056a6135.jpeg

  LASSO在高维数据中选取了最有解释力的变量,并用于OLS和Logit模型。可以看到,Post-LASSO将Recall rate提高到23%左右,相对于基准模型中的Logit估计提高了8个百分点,且精确度无明显损失。如果放在全国来看,Recall rate的每个百分点提高,意味着多出4830个九年级的学生被正确识别出辍学风险,有助于学校在有限的资源内有效识别辍学风险。

  (三)稳健性检验

  1.不同目标函数:通过替换目标函数,如最大化AUC、最大化精确度等目标,改变效果衡量的标准,以上方法的预测效果依然较好。

  2. 附加算法:在SVM或Boosting模型中加入学校固定效应并未好于Post-LASSO Logit的表现,在Post-LASSO OLS中加入交互项或学校固定效应也不能带来效果增益;并且,本文所用模型算法所需的运算和时间成本都适应学校的预算。

  3. 附加变量:进一步加入防辍学项目的treatment effect,并不降低ML的预测效果;加入回访数据,考虑种族和语言、家庭收入、家庭规模、父母教育程度、就业和职业等基本不随时间变化的因素,并不会影响辍学风险的预测效果。

  4. 结果变量的设定:学生在回访中可能存在未报告辍学的情况。如果在模型中排除无应答者和身份不明的学生,实际上会提高recall rate,所以结果变量的设定并不影响机器学习的良好预测效果。

  5. 地区异质性:不同地区的recall rate有所不同,机器学习得到的预测效果在任何地区都有显著的提高。

  6. 考虑到种族和性别歧视的问题(如黑人成绩和家境相对较差,更易被识别为辍学者),故将目标函数修改为,max w(S)+v(S),前者为有效性部分(降低辍学率),后者为公平组成部分(确定种族、性别等类别的优先次序)。尽管考虑了公平性,ML预测效果不受影响。

  (四)关键指标

  作者计算了不同变量的预测贡献,选取贡献大的变量作为预测指标。Table 4和Table 5分别列出了Boosting和LASSO方法下,在5-fold estimation中至少被选取了3次的变量。

  可以看出,GPA、出生年份、数学考试成绩、九年级无数学或科学课程、转学、出勤率、在校行为等同时都是LASSO和Boosting的关键指标。LASSO尤其关注学校特质和家长参与的影响,为政策制定者提供了额外的预警指标。

  54bd0a1882704ca3bdd36f3ad9bf3a3e.jpeg

  a8c02eaf820e45f4a7bdfd5228391213.jpeg

  (五)分组因人施策

  不同的学生的辍学原因可能不同,因而需要针对性项目因人施策。Table 6显示运用无监督学习Logit Post-LASOO算法,对被预测出来的辍学群体分为四组不同子样本(Group1-Group4)。

  a914a52670d444e38fe6e28c9b207384.jpeg

  这四组学生的辍学预测指标有一定的重合,比如就读于公立学校、低GPA、低数学成绩,但是在家庭参与、毕业期望与自信程度、课程出勤率等方面有显著差异。作者进一步提出,将表现良好但学习成绩较差的学生与逃课、在校表现差的学生放在同一个教室中,可能会对前者产生负面的外部效应。因而因人施策的建议具有很强指导意义。

  五、总结

  本文讨论了如何运用机器学习方法来预测高中生辍学概率。首先,作者采用支持向量机(SVM)、提升法(Boosted Regression)和Post-LASSO等机器学习算法,分别用来预测高中生辍学概率,通过对不同变量预测贡献的比较选取了一系列变量作为预测指标;其次,作者建立了一个在给定资源约束下最小化辍学率的微观经济模型来选取合适的评判预测效果的标准(即Recall);作者最后采用无监督学习方法对被预测为有辍学风险的学生分组,进而为有差别的项目干预提供了建议。

  六、贡献

  在理论上,作者结合了经济学理论和机器学习的方法,通过构建微观经济模型来选取合适的评判预测效果的标准,这在一定程度上解决了机器学习方法存在的缺乏可靠的、唯一的评判标准的问题;

  在方法上,作者使用机器学习方法来对高维数据进行学习预测,大大提高了预测效果;

  在政策应用中,该研究可以被借鉴用来预测高中生辍学率,并建议父母、学校和政府来对潜在的辍学孩子进行有针对性的干预。

  七、一点思考

  (一) 机器学习和经济学理论、计量经济学可以互相补充。论文通过构建微观经济模型来选取合适的评判机器学习预测效果的标准的思想很值得借鉴。

  (二)将机器学习方法应用到我国教育等领域。我们可以借鉴该研究来构建关于学生辍学、学生心理问题、青少年犯罪等预警指标和干预系统,这在我国还基本是一片空白。

  参考文献:

  Dario Sansone,2019."Beyond Early Warning Indicators: High School Dropout and Machine Learning," Oxford Bulletin of Economics and Statistics, Department of Economics, University of Oxford, vol. 81(2), pages 456-485, April.

  纪录片截图来自哔哩哔哩网站,网图来自百度百科,如有侵权,请联系删除。

  0ed8e484847a48e098d829e3aca4db55.jpeg

达到当天最大量