重要名词解释数据整理1、数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。2、数据的类型:按收集方法分、按被描述的现象和时间分、按计量尺度分、按获取途径分。3、抽样误差和非抽样误差4、数据整理:数据整理是根据研究目的,运用科学的方法,对调查数据(特别是二手数据)进行审核、分类或分组、汇总,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的工作过程。数据整理的作用:[1]是对调查资料的全面检查。查缺补漏,去伪存真,去粗取精,保证数据的真实。[2]是进一步分析研究数据的基础。对数据的分析必须借助完备的系统的资料,因此它是研究阶段的第一步。[3]是保存数据的客观要求。只有进行整理之后,才能使原始数据具有长期保存的价值。5、数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据;现有数据集中某个或某些属性的值是不完全的。缺失数据的处理:[1]删除元组:个案剔除法[2]数据填充:1)单一填充:人工填写、平均值填充、回归值填充、热卡填充2)多重填充:多重插补法[3]不处理假设检验6、显著性水平(significancelevel):是指当原假设正确却被拒绝的概率或风险,即;它是由人们根据检验的要求确定的,社会科学研究中通常使用0.1(10%),0.05(5%),0.01(1%)显著性水平,其统计意义指的是当我们拒绝原假设𝐻_0而接受备择假设𝐻_1的时候,我们有10%、5%、1%的几率犯错误了(反过来说:我们拒绝原假设的时候,我们这一决定有90%、95%、99%的概率是对的)。7、临界值(criticalvalue):指的是对应相应显著性水平的值;如果检验结果的统计值高于临界值,我们有理由拒绝原假设,如果如果检验结果的统计值低于临界值,我们有理由接受原假设。8、依据显著性水平大小把概率划分为二个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间。事件属于接受区间,原假设成立而无显著性差异;事件属于拒绝区间,拒绝原假设而认为有显著性差异。9、置信度:指根据样本对总体所作的估计落在一个指定范围内的可靠程度,即(1-);通常用一个百分数表示,如95%的置信度是指根据样本对总体所作的估计落在一个指定范围内的可能性为95%,不符合的可能性为5%。10、置信区间:在一定置信度时,以抽样结果为中心,包括总体均值在内的可信范围。11、P值:当原假设为真时,得到的样本观察结果或更远离原假设值的样本出现的概率。12、小概率事件:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中事件A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。描述统计13、数据特征值度量:(1)集中趋势的度量(2)离散程度的度量(3)偏态和峰态信度和效度14、概念(concept):社会领域元素的标签,解释社会领域的某一特定方面。15、构念(construct):为了研究目的发明的概念,例:福利、工作满意度、智商特点:抽象、需要测量。16、指标(indicator):测量构念的工具,具体表现为变量,分类、顺序、数值变量。17、信度和效度:信度(reliability):测量结果的一致性、稳定性和可靠性。效度(validity):测量准确地反映了需要测量的概念。信度和效度的关系:信度是效度的必要条件。18、信度的测量方法:(1)重复检验法:对同一群受访者用同一个问卷重复测量两次,再根据两次测量的相关系数评价信度;(2)交错法:两份问卷,不同问题,同一目的;(3)折半法:将一份问卷中的问题随机分为两组,然后考察这两部分的测量结果的相关系数。19、效度的基本理论模型:假设Yi=Ui+∈Ui:第i个样本的真值Yi:第i个样本的测量值∈:第i个样本测量值与真值的差异20、效度的种类:表面效度(facevalidity):测量结果与共识或合理预测吻合的程度;内容效度(contentvalidity):测量内容的全面性和相符性;标准关联效度(criterion-relatedvalidity):某测量与外在标准相关的程度,也叫预测效度;建构效度(constructvalidity):也叫构念效度,在某理论体系内,测量体现出来的某种结构与理论之间的对应程度。卡方检验和方差分析21、卡方检验:是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量。22、影响因素的分类:在所有的影响因素中根据是否可以人为控制可以分为两类,一类是人为可以控制的因素,称为控制因素或控制变量,如种子品种的选定,施肥量的多少;另一类因素是认为很难控制的因素,称为随机因素,如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。23、控制变量的不同水平:控制变量的不同取值或水平,称为控制变量的不同水平。如甲品种、乙品种;10公斤化肥、20公斤化肥、30公斤化肥等。24、观测变量:受控制变量和随机因素影响的变量称为观测变量,如农作物的产量等。25、单因素方差分析:单因素方差分析测试一个分类型变量的不同水平变动是否造成被关注的数值型变量的显著差异和变动。26、方差分析平方和:总的变异平方和记为SST,分解为两个部分:一部分由于组内抽样随机因素引起的SSE(组内WithinGroups误差平方和);另一部分是由不同水平间数据引起的误差,包括抽样本身的误差和分组间本身的系统性误差,记为SSA(组间BetweenGroups误差平方和)。27、多因素方差分析:多因素方差分析用来研究两个及两个以上控制变量的不同水平是否对观测变量产生了显著影响。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量产生显著影响。28、总平方和:SST为观测变量的总误差平方和;SSA、SSB分别为控制变量A、B独立作用引起的变差;SSAB为控制变量A、B两两交互作用引起的变差;SSE为随机因素引起的变差。相关和回归29、相关关系的特点:(1)一个变量的取值不能由另一个变量唯一确定;(2)当变量x取某个值时,变量y的取值对应着一个分布;(3)各观测点分布在直线周围。30、相关系数:度量变量之间线性关系强度的一个统计量;若相关系数是根据总体全部数据计算的,称为总体相关系数,记为p;若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r。31、在回归分析中,只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linearregression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinearregression);32、回归模型分类:33、因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。SSESSABSSBSSASST变差的大小可以通过该实际观测值与其均值之差来表示。34、误差平方和的分解:总平方和(SST—totalsumofsquares):反映因变量的n个观察值与其均值的总误差;回归平方和(SSR—sumofsquaresofregression):反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和;残差平方和(SSE—sumofsquaresoferror):反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。35、残差(residual):36、虚拟自变量:也称哑变量,用数字代码表示的定性自变量。虚拟自变量可有不同的水平:(1)只有两个水平的虚拟自变量,比如,性别(男,女)(2)有两个以上水平的虚拟自变量,贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1。37、虚拟自变量的性质:定性分析38、定性研究:又称质化研究,根据社会现象或事物所具有的属性和运动中的矛盾变化,从事物的内在规定性来研究事物的一种方法或角度。39、定性研究和定量研究:40、案例分析报告的结构:(1)线性分析式结构(linearanalytic)(2)比较式结构(comparative)(3)时间顺序结构(chronological)(4)理论建构式结构(theory-building)(5)悬念式结构(suspense)(6)无序(混合)结构(un-sequenced)