美国国立癌症研究所SEER数据库概述及应用

kiochi
0 ℃
2019-10-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

MicrocomputerApplicationsVol.31,No.12,2015基金项目微型电脑应用2015年第31卷第12期·26·文章编号：1007-757X(2015)12-0026-03美国国立癌症研究所SEER数据库概述及应用章鸣嬛，陈瑛，汪城，沈瑛，马军山摘要：美国国立癌症研究所“监测、流行病学和结果数据库”SEER是北美最具代表性的大型肿瘤登记注册数据库之一，收集了大量循证医学的相关数据，为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。介绍了SEER的基本情况、获取方式以及数据库结构等，对SEER的数据字典进行了较详细的描述；解读了SEER主要的统计分析报告；收集了近年来国内外基于SEER数据的部分临床应用案例，并对SEER数据库的未来应用进行了讨论与展望。关键词：SEER大型肿瘤登记数据库；数据字典统计分析报告临床应用中图分类号：R195文献标志码：A0引言SEER记录了美国部分州县40年来肿瘤患者的相关信息，包括了上百万名已确诊患者的发病率、死亡率和患病情况等信息[2]。SEER在建立之初仅有少数几个地区的登记站，目前登记站数量已扩展为18个。这些登记站利用SEER*STAT软件来统一和规范[3]，这是一款可用于统计分析的强大的计算机工具。各登记站的数据资料以一年两次的频率提交到NCI进行分类统计和汇总，并向全美及全世界发布所覆盖人群的肿瘤信息。SEER的研究数据主要由肿瘤发病率情况和人口数据两大部分组成。截至2013年11月，SEER的数据记录已有8,208,917条。数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。数据库所涉及的肿瘤划分为9类：乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。1背景介绍1.1医学数据的特点随着我国医疗卫生事业的快速发展，据卫生和计划生育事业发展统计公报[1]显示，2013年全国医疗卫生机构总诊疗人次达73.1亿人次。全国医疗服务工作量如表1所示：表12013全国医疗服务工作量统计诊疗人次数（亿人次）入院人数（万人）2013201220132012医疗卫生机构合计73.168.91921517857医院：27.425.41400712727公立医院24.622.91231511331民营医院2.92.516921396三级医院12.410.954504726二级医院10.910.566216242一级医院1.81.7729649基层医疗卫生机构43.241.143004254其他机构2.52.4907876合计中：非公医疗卫生机构16.315.717731476全国医疗卫生机构入院人数达19215万人，如图1所示：图12013年全国医疗卫生机构住院量及增长速度[1]医学数据既具有常规数据的特点，如数据增量巨大、来源多样、产生时间和地点等不确定；又具有其特殊性，主要表现为：（1）数据形式多样性或异质性。包括文本数据（如问诊、观察和解释等非结构化的描述语言）；临床化验等生理参数；一维信号及其参数（如ECG）；超声、CT、MRI、PET等医学影像特征参数。（2）医学数据描述的不确定性。医生对于上述临床数据的解释含有丰富的经验积累和知识沉淀，是医学数据分析处理必须关注的数据源，但医生的经验与知识大多是非结构化的文字描述非标准化形式。（3）人体是一个复杂的生物系统，随着病程变化，其临床数据在不断变更，因此需要建立一种方法能相应地采集、存储和分析相关的数据及其变化过程。（4）医学数据的使用受其私密性、敏感性、伦理、法律和社会舆论等因素的制约。1.2数据库技术与大数据分析数据库技术是研究、管理和应用数据库的一门软件科学，通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法，来实现对数据库中的数据进行处理、分析和理解。当今社会每时每刻都在产生海量的数据，对规模巨大的数据进行分析和研究，并从中得出有用的结论和规律，使得大数据分析技术应运而生。“大数据”的特点可概括为4个——————————————基金项目：2012年上海市民办高校重大科研项目（2012-SHHGE-01ZD）；2015年IBM大学合作部联合研究项目（D-2111-15-001）作者简介：章鸣嬛（1980-），女，安徽，上海杉达学院，副教授，博士生，研究方向：计算机应用，上海，201209陈瑛（1968-），女，上海，上海杉达学院，教授，博士，研究方向：数据分析与处理，上海，201209汪城（1994-），男，安徽，上海杉达学院，本科生，研究方向：计算机科学与技术，上海，201209沈瑛（1970-），女，上海，上海交通大学医学院附属新华医院，副主任医师，硕士，研究方向：临床医学，上海，200092马军山（1967-），男，黑龙江，上海理工大学，教授，博士，研究方向：光电信息，上海，200093MicrocomputerApplicationsVol.31,No.12,2015基金项目微型电脑应用2015年第31卷第12期·27·V，即数据量大（Volume）、高速（Velocity）、多样（Variety）和价值（Value）。医学数据具备大数据的特点，如何正确有效地对海量医学数据进行挖掘研究，是目前亟待解决的热点问题。监测、流行病学和结果数据库（Surveillance，EpidemiologyandEndResults，SEER）是较为典型的医学数据库，由美国国立癌症研究所（NationalCancerInstitute，NCI）于1973年所建立，是北美最具代表性的大型肿瘤登记注册数据库之一。2SEER数据库2.1SEER数据获取SEER数据对所有研究者开放，获取1973-2011期间的SEER数据的手段有3种[4]。（1）通过SEER*STAT软件的客户端-服务器模式进入互联网（），这是目前最广泛的数据获取手段。（2）从SEER网站上下载压缩文件，解压缩后可得到相应的二进制数据文件及相关文本数据。前两种获取方式都要使用由SEER提供的用户名和密码进入网络。（3）向SEER管理人员申请索取数据库的DVD光盘，可直接获取SEER*STAT软件、二进制数据文件及相关文本数据。不管何种数据获取方式，之前都要签署有关SEER研究数据的协议。2.2SEER的数据构成SEER研究数据主要由肿瘤发病率数据、人口数据及数据字典构成。（1）1973-2011年期间肿瘤发病率研究数据（Incidence）肿瘤发病率研究数据均按照国际疾病分类肿瘤学专辑第三版（InternationalClassificationofDiseasesforOncologyThirdEdition，ICD-O-3）来编码，并保存为TXT文本格式。此目录包括4个子目录：YR1973_2011.SEER9：该目录保存了1973~2011期间由SEER第九登记站提交的部分州县的肿瘤研究数据。具体州县为：亚特兰大、康涅狄格、底特律、夏威夷、爱荷华、墨西哥、旧金山、弗朗西斯科、奥克兰、西雅图和犹他州普吉特海湾。YR1992_2011.SJ_LA_RG_AK：该目录保存了1992~2011期间部分州县的肿瘤研究数据。具体州县为：圣若泽、洛杉矶、蒙特雷、格鲁吉亚和阿拉斯加农村。YR2000_2011.CA_KY_LO_NJ_GA：该目录保存了2000~2011期间部分州县的肿瘤研究数据。具体州县为：大加利福尼亚、肯塔基、路易斯安那、新泽西和大格鲁吉亚。YR2005.LO_2ND_HALF：该目录保存了2005.7~2005.12期间路易斯安那州的肿瘤诊断情况。这4个子目录中的研究数据均按上述9类肿瘤情况分别组织。（2）人口数据分年龄段的统计情况（Populations）人口数据的统计情况也遵循ICD-O-3标准来编码，并保存为TXT文本格式。按两种方法对人口数据进行分段统计。①以5年为一个年龄段跨度，共划分为19个年龄段组。②以一年为一个年龄段跨度，从0岁至100岁以上，共划分为101个年龄段组。此目录中的数据文件与肿瘤发病率的数据文件相对应，分别收集了相应年份跨度和地区的基本的人口统计数据情况。（3）数据字典（Datadictionaries）所谓数据字典，可以看作是数据库中所有成分的定义和解释的文字集合，描述了数据库中每条记录所包含的属性意义和取值说明。因此，在数据字典中建立起严密一致的定义非常有助于用户对于数据库的理解和使用。作为大型肿瘤登记数据库之一，SEER也具有一定的特殊性。①病例数据的来源时间跨度长，地区跨度广，且数据来源多源化。因此需要数据字典对其记录字段的属性进行一致化和规范化。例如字典中包括患者的中心序列号、原发病灶部位、肿瘤尺寸、肿瘤等级、治疗方案以及死亡原因等字段属性。以“中心序列号”为例，它在北美癌症登记中心协会（NAACCR）的登记编号为380，字段长度为2。该属性描述了所有可报告的恶性肿瘤、良性肿瘤的数量及序列，这些都是可能贯穿于病人发病生涯的疾病信息。在病人的发病生涯中，该序列号可能会发生改变。比如某病人曾被检查出患有一种恶性肿瘤，后来又被检查出患有第二种恶性肿瘤，那么该病人的中心序列号可能会由001变成002。②医学研究的进步使得人们对于癌症的认识也在不断修正，这也导致SEER在数据采集时考虑的因素要发生变化，以便对病例记录进行更精确地描述。对比发现，在2010年11月之前，每条记录的属性数目为147（包括4个跳空属性）；而截至2011年11月，每条记录的属性数目已达155（包括4个跳空属性）。比如，2011年11月之后的版本中，删去了原有的“Birthplace”属性，同时增加了“Birthplace-Country”和“Birthplace-State”属性。再比如，2011年11月之后的版本中，增加了“BreastSubtype（2010+）”属性，即，为了进一步描述乳腺癌的类别和性质，2010年11月之后的病例记录中增加了乳腺癌的亚型属性。之所以要设置“跳空属性”，是因为这些属性曾被使用过，而随着技术的发展，现已弃之不用，但为了保证与其他字段之间的对应关系，仍保留该属性的原有位置。另外，由于数据文件均为TXT文本格式，不宜直接处理，故可先用统计分析工具对TXT文本文件进行格式转换。比如利用IBMSPSSStatistics软件将TXT文件转换成SAV文件，以便统计某数据文件的字段总数和记录总数、某离散型数据每个取值所对应的记录数及某连续型数据所有记录值的均值或方差等信息。3SEER数据库的应用3.1主要统计分析报告SEER主要发布了四类统计分析报告，为肿瘤研究人员提供了完整、权威的分析数据，便于研究者们对全美各个地区、各类人群中的肿瘤患者情况进行系统深入的研究，具有高度的研究参考价值。（1）癌症的国家年度报告（1975-2013）MicrocomputerApplicationsVol.31,No.12,2015基金项目微型电脑应用2015年第31卷第12期·28·本报告提供了美国的癌症发病率和死亡率趋势，每年更新一次，由美国疾病控制和预防中心（CDC）、美国癌症协会（ACS）、美国国家癌症研究所（NCI）以及北美癌症登记中心协会（NAACCR）联合发布。最新报告的发布时间是2013年12月，主要报告了肺癌、大肠癌、乳腺疾病及前列腺癌等肿瘤的发病及死亡情况。（2）居住在美国的亚裔及太平洋岛国人口的癌症发病率和死亡率情况报告该报告中，美国国家癌症研究所（NCI）及其合作部门的研究者们发布了居住在美国的亚裔与太平洋岛国人口的癌症发病率、死亡率及阶段分布情况。（3）SEER癌症统计数据回顾（1975-2011）SEER癌症统计数据回顾（CSR）是一份可在线获取的年度分析报告，包括大多数癌症发病率、死亡率和生存率的近期统计数据。报告按癌症的不同发病部位或类别加以划分，多以图表形式来呈现。（4）美国癌症统计数据