APC模型

lishifeng0429
1 ℃
2020-05-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

APC模型定义：age-period-cohortmodel.年龄效应（ageeffects):结局变量随着个体年龄的变化，其可以由生理上的变化/社会经验的积累/社会角色或地位的变化或者这些综合因素而引起。年龄效应反应个体生命历程的生物和社会过程。我们在一般模型中会加入年龄变量作为控制项，将因变量在年龄上的变化做出散点图，这条线就是因变量的年龄效应。期间效应（periodeffect）：结局变量随个体所处时代变化而变化，包括一组复杂的历史事件和环境因素，EG饥荒/世界大战/经济危机/传染病大流行。期间效应通常在纵向分析中体现出来。队列效应（cohorteffect）：结局变量随个体出生队列的变化而变化。一个出生队列共同经历生活，并在相同的年龄阶段上经历相同的社会历史事件。队列效应反应个体早期经历和宏观社会环境的交叉影响。Eg80后/90后这三者存在着完全线性依赖关系，即已知其中两个变量，必能得出第三个变量。在通常的研究中，将年龄变量纳入，得到年龄的显著性，其实这个时候年龄的显著性不一定是年龄在影响因变量，因为此时可能队列与年龄等价，可能是队列的显著性。EG,因变量在1980年60-90岁上的变化与其在1890-1920年的队列同等研究段上的变异并没有区分。故，年龄与队列的区分只有在不同的时点上所收集的数据对比上才能实现。eg1980年，60岁/70岁/80岁各组之间的差异模式为M11990年，60/70/80，，，，，，的差异模式为M22000年，60岁/70岁/80岁各组之间的差异模式为M32010年，60岁/70岁/80岁各组之间的差异模式为M41.如果仅与年龄相关，与队列无关，则，M1=M2=M3=M42.如果因变量还与队列相关，则，M1-M4不同。APC模型识别常用方法两种方法：工具变量法IV和内源估计法IE。目的是估计这三个变量的单独效应值，在已知一个变量的情况下。工具变量法instrumentalvariableIV:是经济学中常用的一种能够检验和处理变量关系内生性问题/避免多变量共线性的高级方法。其基本原理是寻找一个与A变量高度相关，而与B变量无任何关系的变量去替换A变量。缺点是：1.估计结果会随IV的不同而不同，因为寻找的替换变量并不唯一，导致IV模型并不一致。2.作为替换的变量很难找。内源估计法intrinsicestimatorIE：最早由Yang等人于2004年提出。依据矩阵相关知识，由于在APC模型中，设计矩阵是不满秩的，其存在一个等于0的特征值，又有XB0=0，其中B0为一个非零向量，其可被看作APC模型解集空间中的一个特殊解向量，由模型任意两组解b1和b2的差值所决定。因此我们得到：X(b1-b2)=X(tBO)，其中为任一给定实数。在这一情况下，APC模型的任一解均可被看作由两个部分组成：b=B+tBO，其中是APC模型的真实解，即为内源估计算子（IE），而BO则由X（年龄、期间、队列）的个数所决定。因此，IE法具有可估性、无偏性、有效性等优点，但依然存在无法纳入更多控制或考察变量、数据格式固定化等局限性。APC模型IE解法实际应用APC模型的IE解法目前只能在STATA中实现。1）首先需要确认你的数据的年份跨度需要超过10年，因为IE法需要将数据处理为5年分组格式，而数据的动态性需要至少三次调查或三个时间点才可以体现。2）确认你的数据有年龄、期间、队列三个变量，当然只需要知道其中的两个即可，因为年龄=期间-队列。当然，你需要考察的因变量/结局变量必须要有。3）将数据处理为以下格式（见图1），然后导入到STATA软件中。在下图中，age、period、cohort、health分别为三个自变量（年龄、期间、队列/世代）和一个因变量（健康），其中前三个都处理为5年一组的格式，如age下面的“15”其实表示“15-19岁组”等等，而health下面的数据则是对应组的均值，这样按照年龄组顺序排完第一个期间之后在接着排第二个期间的数据，以此类推直至排完所有数据。需要注意的是，这里age下面的“70”表示“70岁及以上组”，是开口数据，这样的处理方式有利于避免高龄段小样本估计不准的问题，但也会导致估计含义与前面不一致的现象，我们也可以处理为70-74岁组而将超过75岁的样本排除。完成数据处理后，在导入STATA时需要将表头的变量名称排除。在上述步骤完成之后，我们就可以将整理好的数据导入STATA了。之后，首先我们还需要安装IE解法的运行插件，可以在命令窗口输入命令“sscinstallapc”然后运行，即可安装成功。之后我们输入命令“apc_ieD,age(A)period(B)cohort(C)family(normal)link(log)”然后运行数据。“D”表示因变量在表格中的D列，“A”表示年龄在表格中的A列，B、C含义相同。“family(normal)”表示因变量的分布类型为正态分布，“link(log)”表示连接函数为对数形式。当然，语句内容依据具体研究而不同。这样，运行得出结果（略），其读法与一般回归相同，包括系数、标准误、Z值及显著性水平、置信区间等。一般而言，我们可以直接使用第一列系数做图，也可以将通过指数转换后的相对风险（在每个时间维度中取一个参照组，然后将组内所有减去参照组估计值，再取自然指数）进行做图，两种处理方式本质而言对结果解释影响不大。