ROST CM6使用手册 1 ROST 内容挖掘系统ROST Content Mining System User Manual Version 6.0 2010.9.23 武汉大学 CM6使用手册 2目录一、功能性分析……………………………………………………………………4 1)分词…………………………………………………………………………4 2)字频分析……………………………………………………………………4 3)英文词频分析………………………………………………………………4 文件词频统计………………………………………………………………4 剪切板词频统计 …………………………………………………………5 查看统计表格 ……………………………………………………………5 查看大纲列表 ……………………………………………………………5 描红超纲词 ………………………………………………………………5 查看非词表 ………………………………………………………………6 加密词表 …………………………………………………………………6 打开词典目录 ……………………………………………………………6 4)汉语频度分析………………………………………………………………6 5)社会网络和语义网络分析 ………………………………………………6 6)情感分析 …………………………………………………………………8 7)流量分析 …………………………………………………………………9 8)相似分析……………………………………………………………………9 9)网络环境分析………………………………………………………………10 10) /IDF批量词频分析………………………………………………………10 11)聚类分析 …………………………………………………………………10 12)分类分析 …………………………………………………………………11 二、文本操作………………………………………………………………………11 1)字段抽取 …………………………………………………………………11 2)一般性行处理…… ………………………………………………………11 3)基于正则的特定信息抽取…………………………………………………12 4)基于字段特征的行处理……………………………………………………12 5)基于辅助词群的行抽取及处理……………………………………………12 6)文本的替换和增补 ………………………………………………………13 三、 可视化 ………………………………………………………………………14 1)标签云………………………………………………………………………14 四、工具……………………………………………………………………………14 1)剪贴板控制器………………………………………………………………14 2)域名排名查询器……………………………………………………………15 3)批量文件格式转换器………………………………………………………15 4)批量文件处理器……………………………………………………………16 5)浏览网页文本实时抓取器…………………………………………………17 6)NetDraw ……………………………………………………………………17 7)ROST WebSpider ……………………………………………………………17 8)调试用 ……………………………………………………………………18 9)程序目录 ……………………………………………………………………19 ROST CM6使用手册 3 10)数据目录……………………………………………………………………19 11)第三方工具…………………………………………………………………19 12)自定义文件…………………………………………………………………19 五、聊天分析………………………………………………………………………19 六、全网分析………………………………………………………………………20 1)全网数据中的摘要或标题数据中的词语、机构的共现关系……………20 2)情感分析……………………………………………………………………20 3)域名的批量流量分析 ……………………………………………………20 4)将网址列表载入到迅雷中进行下载………………………………………20 七、网站分析………………………………………………………………………21 1)获得网站数据………………………………………………………………21 2)分析…………………………………………………………………………22 八、浏览分析………………………………………………………………………22 九、微博分析………………………………………………………………………23 1)扫描数据……………………………………………………………………23 2)分析…………………………………………………………………………23 十、期刊分析………………………………………………………………………23 ROST CM6使用手册 4 一、功能性分析 (1)分词 点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统按照程序目录下的User目录下的User.txt文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。 如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user目录下的user.txt文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。 (2)字频分析 点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口,在待处理文件框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt”文件,点击确定按钮,即可打开该文档。 (3)英文词频分析 文件词频统计 点击功能性分析下拉列表框中的英文词频分析选项, 打开ROST ROST CM6使用手册 5英文词频统计和超纲单词分析窗口。点击文件菜单下的打开菜单项或点击工具栏上的打开按钮,打开要统计的英文文档,然后选择统计菜单下的统计文件词频菜单项或工具栏上的统计按钮,即可统计出文档的所有单词。点击单选按钮纲内,可统计该文档的纲内词;点击单选按钮超纲,可统计该文档中的超纲词。选择复选框全选,可全选表格所有单词;选择复选框归并单词变形,可将变形单词进行归并。 对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选择的词汇添加到常用词语表,或者将选择的词汇从常用词语表中删除。 要在文本框中高亮显示某单词,可以勾选该单词的检查框;如果取消勾选,则文本框中该单词恢复普通显示状态。 剪切板词频统计 如果要统计剪切板词频,则选择统计菜单下的统计剪切板词频菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的统计按钮即可。 查看统计表格 点击查看菜单下的统计表格菜单项,即可查看空的统计表格。 查看大纲列表 点击查看菜单下的大纲列表菜单项,打开大纲列表窗口,即可查看大纲列表。如果要查看某大纲,双击该行即可。在大纲列表窗口,还可以自定义某个词汇表,方法是在大纲名称文本框中输入大纲名称,然后在大纲文件文本框中载入大纲文件,再点击添加按钮即可。ROST CM6使用手册 6若要删除某词汇表,则选中该词汇表后,点击删除按钮即可。 描红超纲词 如果要查看所有勾选的超纲词汇在文章中的位置,则首先点击统计、然后选择超纲,再勾选全选,然后点击查看菜单中的描红选定的超纲的词汇即可。 查看非词表 非词表你不想统计的单词或者字符的列表,该文件位于程序目录下的dict子目录下的notwords.txt。要查看非词表,点击工具菜单下的查看非词表即可。如果要启动非词表,则工具菜单下的点击启动非词表。 加密词表 如果要对词表加密,则点击工具菜单下的加密词表;如果要解密词表,则则点击工具菜单下的解密词表即可。 打开词典目录 点击工具菜单下的打开词典目录即可。 (4)汉语频度分析 点击功能性分析下拉列表框中的汉语词频分析选项,打开汉语词频统计窗口,在分词后待统计词频文件文本框中载入分词后的文件,如“虚拟学习团队2010‐8‐7_分词后.txt”,则系统自动载入过滤词表,并在输出文件文本框中生成词频统计文件“虚拟学习团队2010‐8‐7_分词后_词频.txt”。在归并词群表文本框中载入归并词群表,还可以对文档中的词进行归并。在保留词表文本框中载入保留词表,则可ROST CM6使用手册 7以将文档中在保留词表中的词保留下来。 (5)社会网络和语义网络分析 点击功能性分析下拉列表框中的社会网络分析选项,打开ROST语义网络和社会网络生成工具,在待处理文本框中载入待处理文件(待处理文件格式可以是一行一句的未分词文件,比如聊天记录,全网分析中的摘要文件等;也可以是一句若干词的已分词文件;还可以是多行有关联的已分词文件),然后点击高频词按钮,可以生成高频词表;点击过滤无意义词按钮,可以生成过滤后的高频词和共现矩阵词表;点击提取行特征按钮,可以生成行特征词;点击构建网络按钮可以生成语义网络的.VNA文件和.txt文件,如果进一步点击启动NetDraw按钮,则可以打开NetDraw工具,查看图形结果;点击构建矩阵按钮则可以生成共现矩阵文件。双击文件框可查看相应结果。 如果想进行快速分析,则载入待处理文件后,点击“快速分析”按钮,即可一次生成上述文件。可以是聊天内容文件,文件格式是 例如,以下是对“虚拟学习团队摘要文件”分析的结果: ROST CM6使用手册 8 (6)情感分析 点击功能性分析下拉列表框中的情感分析选项,在待分析文件路径文本框中载入待分析的文件,点击分析,然后双击各文本框后的查看,即可查看情感分析详细结果、情感分段统计结果、中性情绪结果文件和情感分布统计视图结果。 ROST CM6使用手册 9(7)流量分析 点击功能性分析下拉列表框中的流量分析选项,打开Rost Alexa网络流量分析工具,在输入网址文本框中输入要进行流量分析的网址,点击数据分析按钮即可。 还可以在该工具中进行批量分析,这时只需要点击批量分析按钮,导入需要进行批量分析的网页链接表,即可得到批量分析结果。 (8)TF/IDF批量词频分析点击功能性分析下拉列表框中的TF/IDF批量词频分析选项,打开TF/IDF批量词频分析窗口,点击批量打开文件按钮,选择需要打开的文件夹,即可在工具栏的下方打开所选文件夹中所有的.txt文件。勾选文件前面的复选框,选中文件(可同时勾选多个文件),点击计算批量文件IDF,窗口的左下方即可出