求职简历信息的自动抽取--任宁求职简历信息抽取的意义大型公司人力资源库的动态更新猎头公司建立人力资源库招聘网站便利用户网上进行的各种认证、报名的需要求职简历的特点求职简历范例结构化文本半结构化文本非结构化文本求职简历的构成求职简历的“A+B+1”结构模式A部分:个人信息此外教育背景、实践经历、个人评价还有其他信息的部分内容也出现在这一部分。B部分:教育背景、实践经历和个人评价此外可能含有其他信息和联系信息中的部分内容。“1”:联系信息联系信息既可能出现在A部分,也可能出现在B部分的末尾。把求职简历的格式以“A+B+1”模式来描述的原因在A部分,各简历信息基本是以“项:值”格式存在的。即前面是简历项名称,后面是简历项内容,中间用分隔符(可能是“:”、制表符或空格)隔开。值的部分是表达单纯概念的简单信息,往往是一个短语。而在B部分,各简历信息的值相对复杂,为组合概念,项、值之间多以换行分隔。“A+B+1”的具体构成求职简历信息的抽取方法求职简历A部分简历信息的抽取方法求职简历B部分简历信息的抽取方法识别求职简历A部分与B部分的分界“1”的定位和处理求职简历A部分简历信息的抽取方法按顺序一行行读入文本;去掉每行空格;以A部分简历信息中常见的简历项名称做触发词语,遇到触发词语则替换成“换行符+触发词语”的格式;对A部分每一行进行处理,提取触发词语作为简历项名称,后面的部分做为简历项的“值”。求职简历B部分简历信息的抽取方法按顺序一行行读入文本,去掉“【”、“】”、“—”等修饰美观的成分。以B部分简历信息中常见的简历项名称做触发词语,遇到触发词语则以触发词语作为“项”,后面的部分作为“值”,直到遇到下一个触发词语为止。识别求职简历A部分与B部分的分界顺序遍历文本,搜索第一个B部分触发词语的位置,判断此触发词语与其“值”之间是否有换行符分割。若有,则认为此处是A与B的分界。否则,继续向后遍历,寻找下一个B部分触发词语。“1”的定位和处理“1”联系信息有时出现在A部分,有时出现在B部分之后(即文本末尾)。对这部分信息,处理方法如下:利用联系信息触发词表定位联系信息;对于联系信息部分以与A部分相同的方法进行处理。抽取结果结论及未来工作展望由于时间有限,作者的水平也有限,本研究还存在很多不足,在未来的工作中,希望能尽量减少这些不足。首先,本研究的测试结果是建立在封闭测试基础上的,开放测试缺乏。其次,还没有对组合信息内部进行分析和处理。比如工作经验信息,只是将应聘者的工作经历作为一个整体提取出来,没有对其工作年限、任职部门、担任职务和所负责的主要内容作进一步的分析和处理。第三,未进行简历项名称的识别。完毕,谢谢。