信用管理与评分模型2013.3专题4:征信数据处理周伟民主要内容•征信数据•征信数据元•征信数据采集/整理•征信数据存储/更新/加工•征信报告异议处理•征信技术标准征信数据•个人基本信息–ID,地址,职业,年龄,资产,教育,性别,家庭,电话,Email…•贷款数据–贷款种类,用途,限额–贷款日,期限,余额…•违约纪录–债务逾期,逾期回收,代理偿还–强制回收,强制解除合同,拒付,失联…征信数据•查询纪录–查询时间,查询方,查询原因,查询内容,查询次数等•非金融支付数据–公共缴费数据,房租…•公共纪录–行政机关、司法机关在实行职权过程中形成的与个人信用相关的公共记录信息征信数据•非金融支付数据的意义–“薄档案”人群:没有信用记录或是信用记录不足•美国25%-30%•中国%?•无法获得正规的信贷服务•主要是年轻人、老年人,低收入者,农村居民以及流动人口。–用于首次授信评分征信数据目标通过率使用公共事业支付信息情况下的严重拖欠率未使用公共事业支付信息情况下的严重拖欠率严重拖欠率*不同目标通过率条件下所出现的严重拖欠率(Vantage评分模型)*严重拖欠率是指付款拖欠90天或90天以上征信数据元•征信数据元是征信数据中不可再分的最小数据单元•个人征信数据标准的重要部分(2006底,央行)•9大类序号类目1金额、利率、比率类2日期、时间类3地点、地址类4数量类5人员类6机构类7银行业务类8非银行业务类9其他类征信数据元•征信数据元的18个属性•中文名称、英文名称、内部标识符、定义、关键字、关系类型、数据类型、数据格式、值域、计量单位、备注等11个特征属性•版本、注册机构、分类方案、应用约束、注册状态、提交机构、批准日期等7个共有属性。征信数据元征信数据元名称及部分属性中文名称内部标识符定义数据类型贷款合同金额11001金融机构与客户签订的贷款合同上规定的放款额度。数字型信用卡授信额度11002金融机构为客户所持信用卡核定的信用额度。数字型信用卡共享授信额度11003金融机构为客户核定的多张信用卡共用的授信额度。数字型贷款最高余额11004指定贷款合同下的最高贷款余额。数字型信用卡历史最大负债额11005信用卡实际使用额度(透支)的历史最高值。数字型贷款本月应还款金额11006根据还款计划计算出的,客户在当月应向金融机构支付的本金与利息之和。数字型信用卡本月应还款金额11007根据上个帐单日计算出来的本月应还款额。对于贷记卡,为最低还款额;对于准贷记卡,为本月透支余额与利息之和数字型贷款本月实际还款金额11008客户在上个至本个应还款日期之间向金融机构实际支付的数额。数字型信用卡本月实际还款金额11009客户在上个至本个信用卡结算日期之间向金融机构实际支付的数额。数字型贷款当前余额11010截至当前,客户尚未清偿的贷款本金金额。数字型信用卡当前余额11011信用卡当前占用的授信额度。数字型贷款当前逾期总额11012贷款当前应还未还的本金与利息之和。数字型征信数据元•征信数据元的意义:–最大限度的消除征信数据元描述的混乱现象–使不同用户对相同数据元拥有一致的理解,可有效提高信息资源的共享和使用效率–降低信用信息采集成本,促进信用信息跨系统、跨行业及跨部门共享,–确保信用信息的准确和完整,提高数据质量,客观和全面反映被征信主体的信用状况•个人征信数据元的修改和更新:–数据元生命周期管理、数据元的添加、数据元的删除、数据元的更新等工作征信数据采集•征信数据来源–提供消费信贷及信用卡的商业银行及其他金融机构。•个人征信系统最主要的数据来源。–第三方数据处理公司的数据。•例:对消费者个人收入的各种各样的测算,对消费者消费形态、消费行为的各种各样的分析处理等。•向第三方数据处理公司收购,用于分析有关消费者的整体信贷风险和价值行为,生成个人信用评分。征信数据采集•征信数据来源–消费者的征信查询数据。•消费者在寻求贷款过程中产生的查询行为的数据•一部分是指消费者向信贷公司提出信用贷款的请求,信贷公司来查询该消费者最近的信用记录,是消费者引发的,可以被认作“消费者正在寻求贷款”的直接证据;•另一部分是指信贷公司主动要求征信局对消费者的数据进行分析检查,是信贷公司引发的。•通过分析查询记录,可以完整地勾勒出与消费者寻求信贷的行为与轨迹,对于消费者风险行为的预测与判断具有非常重要的意义。征信数据采集•征信数据来源–公共记录数据。•公共记录数据指由政府机构掌握,且对公众开放的政府数据或记录。•在国外,这方面数据的定义非常清晰,管理也比较严格,国内基本还是空白,法律/利益/信息化水平等还有很多待解决的问题。•公共记录包括公安、法院、人事、工商、税务、劳动保护以及公用事业单位、公用服务、通信、保险等许多政府或“准政府”机构的记录。征信数据采集格式•美国信用局协会(ACB)制定了用于个人征信机构的统一的标准数据报告格式和标准数据采集格式Metro2–Metro2规定了任何行业和单位都使用一个标准、统一、开放的计算机数据输入标准格式,为所要采集的数据内容定义了标准字段和字长,按标准排列。–Metro2还规定所采集的内容必须满足所有法律对这些因素的限制性要求。授信企业通过专用软件向三大征信局报送信息,追求高效的信息传递。征信数据采集格式•CRC的个人信用信息的采集方式是商业银行等授信机构通过个人信用信息基础数据库提供服务的网站通过WEB方式或者征信数据综合报送系统,将其所掌握的数据按照《个人征信基础数据库系统数据接口规范第一部分:数据采集格式》所规定的基本格式生成统一的数据文件,然后报送给央行征信中心;或者通过磁盘、磁带、光盘等存储介质,将数据文件直接送至数据中心。征信数据采集格式•两个征信数据标准–征信数据元标准用于征信局内部系统–数据采集格式用于原始数据的传输与录入CRC征信数据报送系统数据转换数据采集数据上报数据加工核心业务系统信贷管理系统其他业务系统征信数据生成征信数据预校验上报数据生成查询统计公共管理信贷数据集成管理征信数据生成征信数据库央行预校验征信上报文件反馈信息处理央行反馈信息央行征信数据库数据来源数据来源征信数据上报系统征信数据上报系统央行征信中心央行征信中心CRC报送文件格式基础段数据项身份信息段数据项职业信息段数据项居住地址段数据项担保信息段数据项项交易标识变更段数据项特殊交易段数据项报文头数据项特别记录段数据项模型个人征信基础数据库系统数据项信息采集模型CRC报送文件校验•报文的校验可划分为六种类型•文件名校验、报文头校验、账户记录级校验、段级校验、数据项级校验和代码型数据项级校验•例:文件名校验内容•报文文件名长度必须为27位。•报文文件名第1位至第14位必须为上报机构的金融机构代码。•报文第15至第20位为有效年月,且年份大于1990,年月小于或等于当前年月,格式为“YYYYMM”。•报文文件名第21位至第23位只能填写“0~9”的数字,且对报文文件名第1位至第20位相同的多个报文,每个报文此处填报的数字不能相同•报文文件名第24位只能填写“1、2、3”。•报文文件名第25位只能填写“0、1、2”。•当报文文件名第25位填写“0”时,报文文件名第26位、27位必须填写“0”•当报文文件名第25位填写“1、2”时,报文文件名第26位只能填写“1、2、3”,报文文件名第27位必须填写“0~9”的数字。•报文文件名必须和本机构以前所有上报报文文件的文件名不重复,即文件名唯一。征信数据整理•征信数据整理–是指不同数据来源不同时间段的数据匹配与整合。以避免因重名、重地址或其它情形造成个人信息错乱的现象。•美国–个人可申请一个独一无二的SSN(socialsecuritynumber),但非强制要求,征信机构的个人信用档案中SSN也不全。因此,SSN并不能作为征信机构对个人的识别标识。–美国的个人征信局开发出了强大的数据配对处理技术。数据配对处理技术是美国征信局的核心技术之一,只要给他们一个姓名和地址,就可以在庞大的数据库中找出相应的人和与此人相关的信用数据。征信数据整理•CRC–由于在信用交易或发放消费信贷时,商业银行等授信机构都会要求信贷申请者提供身份证号码,个人征信机构的所有信用档案中都有当事人的身份证号码,于是个人身份证号码成为了数据库检索的唯一的身份标识。–户口本,护照,军官证?–公安部还不能保证每个中国公民又有一个唯一的且不重复的身份证号;国人在个人身份证借用上比较随意,身份证盗用时有发生。个人数据匹配技术依然是非常必要的。征信数据存储•中国个人信用信息具有数据量大、数据安全性强、规范性高等特点。–个人征信数据库相对于大型商业银行数据库,对硬件和存储技术上都有更高的要求。•系统性能要求–容量:能够记录超过几十亿条数据纪录,每条记录平均byte?总存储量级?–存取速度:h/w,DBIndex/DBlink,…征信数据存储•数据存储安全–存储信息的安全•防火墙/专线/反黑客–物理设施的安全•避免地震、水灾、火灾等•防盗、防毁、防电磁信息辐射泄漏、防止线路截获、抗电磁干扰等•高可靠性硬件–管理风险/操作风险防范•认证/密码/权限•保安/监控/标准操作流程/检查•操作记录/内部风险预防–灾难备份系统•同城,异地三备份•实时切换征信数据存储•数据存储期限–对个人不良信息的保存期限,自不良行为或者事件终止之日起为5年;超过5年的,应当予以删除。•征信数据的更新–数据更新频率是评估征信数据库价值的一项非常重要的指标。–数据库更新频率与机构采集信息的方式,数据源的质量和稳定性直接相关;–有的国家会以法规限定数据库更新的最低频率,来保证征信数据的及时性和准确性。–CRC的更新频率目前取决于商业银行的数据处理于上报时间;CRC在获得报送数据后的更新时间不超过24小时。征信数据的加工•数据加工–从采集到的数据到征信产品之间的各项数据处理–数据更新•数据清洗•数据整合•采集数据-〉数据元;采集文件-〉数据库–征信产品加工•数据抽取•数据分析•生成征信报告/评分/统计分析报告等•CRC的数据加工–个人征信报告:数据抽取/报告生成–CRCScore:数据抽取/评分模型征信数据的加工•最典型的数据加工:提取个人征信特征变量–从大量原始数据中提炼出最能描述消费者行为特征的变量集,用于评分或风控模型–征信局的核心商业机密与商业价值之一•数据加工所需知识–信贷业务与风控原理–海量数据处理–数据库应用–数据仓库–数理统计与建模/SAS等应用软件–数据挖掘征信报告的异议处理–经核查,确认相关信息确有错误、遗漏的,信息提供者、征信机构应当予以更正;确认不存在错误、遗漏的,应当取消异议标注;经核查仍不能确认的,对核查情况和异议内容应当予以记载。未解决未解决存在存在异议申请异议确认系统自动添加标注,如“第一条贷款信息处于异议处理中”内部核查内部核查回复处理外部协查外部协查回复处理制作回复函并查询本人信用报告送达回复函和已更正的报告系统自动删除标注不存在不存在已解决已解决已解决已解决征信技术标准•技术标准的必要性•技术标准的适用–数据处理标准–信息系统标准–金融信息系统监管规范•特有技术标准–数据采集格式–征信数据元标准•现状–CRC内部标准-行业规范–行业规范-国家标准案例:会员制共享征信平台方案运营机构组建原则共建合作机构共同出资组建独立的、非盈利法人机构会员数据的安全性会员商业秘密的保障性征信服务的公平性成本的可控性运营管理机制具有面向个人小额信贷风险控制业务的机构均可自愿加入。公平、平等地为全体会员提供服务,不向非会员提供服务。建立会员章程、收费标准等规章制度。确保数据安全、保密,保护会员商业利益、合法权益运营管理机制逾期还款交易信息共享数据的目标员工表现评价信息个人信贷交易记录采集交换外部信息批量查询实时查询专业征信报告会员机构会员机构外部机构会员机构数据处理系统共享平台信贷申请信贷交易拖欠还款1.申请2.查询3.查询结果4.查询记录5.授信决策6.放贷7.获得贷款8.信息报送9.信息录入1日内10.还款、借款11.信贷交易确认1日内12.余额、还款记录报送13