海量智能分词研究版接口手册天津市海量科技发展有限公司编写二○○五年四月天津市海量科技发展有限公司错误!未定义“自动图文集”词条。目录产品说明.................................................................3功能概述.......................................................................................................................3产品清单.......................................................................................................................3技术支持.......................................................................................................................4第一章系统环境要求...........................................................51.1环境要求.............................................................................................................5第二章基本使用方法...........................................................62.1.1分词过程伪码...............................................................................................62.1.2标注词性伪码...............................................................................................72.1.3计算关键词伪码...........................................................................................82.1.4计算语义指纹伪码.......................................................................................8第三章分词基础件提供的接口描述...............................................103.1.基本接口...........................................................................................................103.2.分词接口...........................................................................................................113.3.获取分词结果接口...........................................................................................123.4.其他接口...........................................................................................................13附录......................................................................17附录A功能基础件概念诠释................................................................................17附录B术语列表.....................................................................................................19天津市海量科技发展有限公司错误!未定义“自动图文集”词条。产品说明功能概述词形切分对给定的字序列文本,自动切分为词序列文本。标注词性对切分后的词标注词性计算关键词对给定的序列文本,计算表现本文本内容的关键词计算语义指纹对给定的序列文本,计算语义指纹。产品清单词典文件HLSplitWord.dat动态链接库文件Release版:HLSSplit.dlllib库文件Release版:HLSSplit.lib源码HLSegFunc.hHLPubDef.h说明文件海量智能分词研究版接口手册.doc天津市海量科技发展有限公司错误!未定义“自动图文集”词条。技术支持电话:86(010)82601290-18传真:86(010)82601290-20E-mail:yangzhiwei@hylanda.com网站:论坛:联系人:杨智炜通信地址:北京市海淀区中关村东路18号财智大厦B2009天津市海量科技发展有限公司错误!未定义“自动图文集”词条。第一章系统环境要求1.1环境要求软件开发环境:VC++6.0软件支持环境:Windows2000及其以后版本硬件支持环境:最低配置:128M内存,PII400提供的开发接口:C/C++天津市海量科技发展有限公司错误!未定义“自动图文集”词条。第二章基本使用方法2.1.1分词过程伪码//初始化分词词典boolbInitDict=HLSplitInit();if(!bInitDict){AfxMessageBox(_T(“初始化分词字典失败!”));return;}CStringstrText;//存放要进行分词的字符串…………………..HANDLEhHandle=HLOpenSplit();//创建分词句柄if(hHandle==INVALID_HANDLE_VALUE){//创建分词句柄失败AfxMessageBox(_T(创建分词句柄失败!));HLFreeSplit();//卸载分词字典return;}intiExtraCalcFlag=0;//附加计算标志,不进行附加计算LPCSTRlpText=(LPCSTR)strText;boolbSuccess=HLSplitWord(hHandle,lpText,iExtraCalcFlag);CStringstrResult;strResult=_T(“”);if(bSuccess){//分词成功intnResultCnt=HLGetWordCnt(hHandle);//取得分词个数for(inti=0;inResultCnt;i++){//取得分词结果SHLSegWord*pWord;//存放分词结果中的一个词pWord=HLGetWordAt(hHandle,i);//取得一个分词结果strResult+=pWord-m_szWord;strResult+=_T(“”);//以空格分割分词结果中的每个词}HLCloseSplit(hHandle);//关闭分词句柄}else{//分词失败天津市海量科技发展有限公司错误!未定义“自动图文集”词条。AfxMessageBox(_T(“分词失败!”));HLCloseSplit(hHandle);//关闭分词句柄HLFreeSplit();//卸载分词字典return;}HLFreeSplit();//卸载分词词典………..…………2.1.2标注词性伪码//略去分词初始化部分HANDLEhHandle=HLOpenSplit();//创建分词句柄if(hHandle==INVALID_HANDLE_VALUE){//创建分词句柄失败AfxMessageBox(_T(创建分词句柄失败!));HLFreeSplit();//卸载分词字典return;}intiExtraCalcFlag=HL_CAL_OPT_POS;//附加计算标志LPCSTRlpText=(LPCSTR)strText;boolbSuccess=HLSplitWord(hHandle,lpText,iExtraCalcFlag);CStringstrResult;strResult=_T(“”);if(bSuccess){//分词成功intnResultCnt=HLGetWordCnt(hHandle);//取得分词个数for(inti=0;inResultCnt;i++){//取得分词结果SHLSegWord*pWord;//存放分词结果中的一个词pWord=HLGetWordAt(hHandle,i);//取得一个分词结果CStringstrWord(pWord-s_szWord);if((pWord-s_dwPOS&NATURE_D_N)==NATURE_D_N)//如果是名词,在结果中标出strWord+=_T(“\n”);strResult+=strWord;strResult+=_T(“”);//以空格分割分词结果中的每个词}HLCloseSplit(hHandle);//关闭分词句柄天津市海量科技发展有限公司错误!未定义“自动图文集”词条。2.1.3计算关键词伪码//略去分词初始化部分HANDLEhHandle=HLOpenSplit();//创建分词句柄if(hHandle==INVALID_HANDLE_VALUE){//创建分词句柄失败AfxMessageBox(_T(创建分词句柄失败!));HLFreeSplit();//卸载分词字典return;}intiExtraCalcFlag=HL_CAL_OPT_KEYWORD;//附加计算标志LPCSTRlpText=(LPCSTR)strText;boolbSuccess=HLSplitWord(hHandle,lpText,iExtraCalcFlag);intnKeyCnt=HLGetFileKeyCnt(hHandle);//获取关键词个数for(intj=0;jnKeyCnt;j++){SHLSegWord*pKey=HLGetFileKeyAt(hHandle,j);//获得单个关键词CStringstrKey;strKey.Format(“%s%f”,pKey-s_szWord,pKey-s_fWeight);……………………….}HLCloseSplit(hHandle);//关闭分词句柄2.1.4计算语义指纹伪码//略去分词初始化部分HANDLEhHandle=HLOpenSplit();//创建分词句柄if(hHandle==INVALID_HANDLE_VALUE){//创建分词句柄失败AfxMessageBox(_T(创建分词句柄失败!));HLFreeSplit();//卸载分词字典return;}CstringstrFinger;intiExtraCalcFlag=HL_CAL_OPT_FINGER;//附加计算标志LPCSTRlpText=(LPCSTR)strText;boolbSuccess=HLSplitWord(hHandle,lpText,iExtraCalcF