Stata实操:用丈夫和母亲的学历做工具变量,搞定内生性问题(附完整代码)

张开发
2026/4/19 19:48:14 15 分钟阅读

分享文章

Stata实操:用丈夫和母亲的学历做工具变量,搞定内生性问题(附完整代码)
Stata实战工具变量法解决内生性问题的完整操作指南当我们在计量经济学研究中遇到内生性问题时工具变量法(IV)是一种强有力的解决方案。本文将以已婚女性工资数据为例手把手教你如何使用Stata完成从数据准备到结果解读的全过程特别聚焦于如何利用丈夫和母亲的学历作为工具变量。1. 准备工作数据导入与初步分析在开始正式分析前我们需要确保数据已经正确导入并进行了初步检查。假设我们使用的是伍德里奇《计量经济学导论》中的女性工资数据以下是第一步操作use female_wage.dta, clear // 导入数据集 describe // 查看变量概览 summarize // 获取描述性统计关键变量包括lwage工资水平的对数被解释变量educ女性受教育年限核心解释变量huseduc丈夫的受教育年限工具变量候选motheduc母亲的受教育年限工具变量候选提示在实际操作前务必检查数据是否存在缺失值。若有缺失可使用misstable summarize命令快速识别。描述性统计结果可能如下表所示变量观测数均值标准差最小值最大值lwage4281.190.72-2.053.22educ42812.652.29517huseduc42812.613.04417motheduc4289.523.310172. 初步OLS回归与内生性诊断我们先进行简单的OLS回归建立基准模型reg lwage educ典型输出结果可能显示教育回报率约为10.9%且在1%水平上显著。然而这个估计可能存在偏误因为能力偏差更聪明的人可能获得更高教育和更高工资家庭背景富裕家庭可能同时影响教育获得和职业发展内生性问题的直观表现OLS估计量不再无偏教育变量系数可能被高估标准误计算不准确3. 工具变量选择与验证选择丈夫和母亲的学历作为工具变量需要验证其合理性corr educ huseduc motheduc // 检查相关性理想情况下工具变量应满足相关性与内生变量(educ)高度相关外生性与误差项不相关无法直接检验丈夫和母亲的学历通常是不错的选择因为配偶教育水平常与本人教育相关同质性婚配母亲教育影响子女教育但不太直接影响子女工资这两个变量理论上与个人能力无关4. 两阶段最小二乘法(2SLS)实现Stata提供了便捷的ivregress命令实现2SLSivregress 2sls lwage (educ huseduc motheduc), first关键参数解释2sls指定使用两阶段最小二乘法first显示第一阶段的回归结果结果解读要点第一阶段F统计量应大于10弱工具变量检验教育系数反映干净的教育回报率与OLS结果比较看偏差方向5. 关键检验豪斯曼与过度识别5.1 豪斯曼检验内生性检验检验educ是否确实为内生变量estimates store ols // 保存OLS结果 ivregress 2sls lwage (educ huseduc motheduc) estimates store iv // 保存IV结果 hausman iv ols, constant sigmamore结果解读若p值0.05拒绝原假设认为存在内生性说明OLS估计不一致需要使用IV方法5.2 过度识别检验工具变量外生性当工具变量多于内生变量时可以进行此检验ivregress 2sls lwage (educ huseduc motheduc) estat overid结果解读p值0.05说明工具变量外生性未被拒绝但不能完全证明外生性需结合理论判断6. 结果呈现与报告技巧规范的实证结果报告应包括以下内容描述性统计表展示主要变量的基本特征OLS与2SLS对比突出内生性导致的偏差诊断检验结果证明工具变量的有效性系数解释说明经济意义而非仅统计显著性示例结果对比表模型教育系数标准误常数项样本量OLS0.109***0.014-0.1854282SLS0.074**0.2270.2554287. 常见问题与解决方案问题1第一阶段F值太小10可能原因工具变量弱相关解决方案寻找更强工具或使用LIML估计问题2过度识别检验拒绝原假设可能原因工具变量不满足外生性解决方案检查工具变量合理性或寻找替代问题3系数符号与理论预期相反可能原因工具变量直接影响被解释变量解决方案重新考虑工具变量选择// 使用LIML处理弱工具变量问题 ivregress liml lwage (educ huseduc motheduc)8. 高级技巧与扩展应用控制其他变量在模型中加入工作经验等控制变量ivregress 2sls lwage exper expersq (educ huseduc motheduc)异方差稳健标准误提高推断准确性ivregress 2sls lwage (educ huseduc motheduc), vce(robust)多个内生变量处理当有多个内生变量时ivregress 2sls lwage (educ exper huseduc motheduc age)在实际项目中我发现工具变量的选择往往比估计技术更重要。有一次分析教育回报时尝试了多种工具变量组合最终发现配偶教育水平和母亲教育年限的组合既满足统计要求又符合经济理论。

更多文章