ROSTCM
ROST CM6使用手册 ROST 内容挖掘 系统ROST Content Mining System User Manual Version
ROST CM6使用手册
ROST 内容挖掘 系统
ROST
Content Mining System
User Manual
Version 6.0
2010.9.23
武汉大学
www.fanpq.com
ROST 虚拟学习团队
,ROST CM6使用手册
目 录
一、功能性分析……………………………………………………………………4 1)分词…………………………………………………………………………4 2)字频分析……………………………………………………………………4 3)英文词频分析………………………………………………………………4 文件词频统计………………………………………………………………4 剪切板词频统计 …………………………………………………………5 查看统计表格 ……………………………………………………………5 查看大纲列表 ……………………………………………………………5 描红超纲词 ………………………………………………………………5 查看非词表 ………………………………………………………………6 加密词表 …………………………………………………………………6 打开词典目录 ……………………………………………………………6 4)汉语频度分析………………………………………………………………6 5)社会网络和语义网络分析 ………………………………………………6 6)情感分析 …………………………………………………………………8 7)流量分析 …………………………………………………………………9 8)相似分析……………………………………………………………………9 9)网络环境分析………………………………………………………………10 10) /IDF批量词频分析………………………………………………………10 11)聚类分析 …………………………………………………………………10 12)分类分析 …………………………………………………………………11
二、文本操作………………………………………………………………………11 1)字段抽取 …………………………………………………………………11 2)一般性行处理…… ………………………………………………………11 3)基于正则的特定信息抽取…………………………………………………12 4)基于字段特征的行处理……………………………………………………12 5)基于辅助词群的行抽取及处理……………………………………………12 6)文本的替换和增补 ………………………………………………………13
三、 可视化 ………………………………………………………………………14 1)标签云………………………………………………………………………14
四、工具……………………………………………………………………………14 1)剪贴板控制器………………………………………………………………14 2)域名排名查询器……………………………………………………………15 3)批量文件格式转换器………………………………………………………15 4)批量文件处理器……………………………………………………………16 5)浏览网页文本实时抓取器…………………………………………………17 6)NetDraw ……………………………………………………………………17 7)ROST WebSpider ……………………………………………………………17 8)调试用 ……………………………………………………………………18 9)程序目录 ……………………………………………………………………19
,ROST CM6使用手册
10)数据目录……………………………………………………………………19 11)第三方工具…………………………………………………………………19 12)自定义文件…………………………………………………………………19
五、聊天分析………………………………………………………………………19
六、全网分析………………………………………………………………………20 1)全网数据中的摘要或标题数据中的词语、机构的共现关系……………20 2)情感分析……………………………………………………………………20 3)域名的批量流量分析 ……………………………………………………20 4)将网址列表载入到迅雷中进行下载………………………………………20
七、网站分析………………………………………………………………………21 1)获得网站数据………………………………………………………………21 2)分析…………………………………………………………………………22
八、浏览分析………………………………………………………………………22
九、微博分析………………………………………………………………………23 1)扫描数据……………………………………………………………………23 2)分析…………………………………………………………………………23
十、期刊分析………………………………………………………………………23
,
ROST CM6使用手册
一、功能性分析
(1)分词 点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt ”,则系统按照程序目录下的User 目录下的User.txt 文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt ”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。
如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user 目录下的user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。
(2)字频分析
点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口,在待处理文件框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt ”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt ”文件,点击确定按钮,即可打开该文档。
(3)英文词频分析
文件词频统计
点击功能性分析下拉列表框中的英文词频分析选项, 打开ROST
,ROST CM6使用手册
英文词频统计和超纲单词分析窗口。点击文件菜单下的打开菜单项或点击工具栏上的打开按钮,打开要统计的英文文档,然后选择统计菜单下的统计文件词频菜单项或工具栏上的统计按钮,即可统计出文档的所有单词。点击单选按钮纲内,可统计该文档的纲内词;点击单选按钮超纲,可统计该文档中的超纲词。选择复选框全选,可全选表格所有单词;选择复选框归并单词变形,可将变形单词进行归并。
对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选择的词汇添加到常用词语表,或者将选择的词汇从常用词语表中删除。
要在文本框中高亮显示某单词,可以勾选该单词的检查框;如果取消勾选,则文本框中该单词恢复普通显示状态。
剪切板词频统计 如果要统计剪切板词频,则选择统计菜单下的统计剪切板词频菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的统计按钮即可。
查看统计表格
点击查看菜单下的统计表格菜单项,即可查看空的统计表格。 查看大纲列表
点击查看菜单下的大纲列表菜单项,打开大纲列表窗口,即可查看大纲列表。如果要查看某大纲,双击该行即可。在大纲列表窗口,还可以自定义某个词汇表,方法是在大纲名称文本框中输入大纲名称,然后在大纲文件文本框中载入大纲文件,再点击添加按钮即可。
,ROST CM6使用手册
若要删除某词汇表,则选中该词汇表后,点击删除按钮即可。
描红超纲词 如果要查看所有勾选的超纲词汇在文章中的位置,则首先点击统计、然后选择超纲,再勾选全选,然后点击查看菜单中的描红选定的超纲的词汇即可。
查看非词表
非词表你不想统计的单词或者字符的列表,该文件位于程序目录下的dict 子目录下的notwords.txt 。要查看非词表,点击工具菜单下的查看非词表即可。如果要启动非词表,则工具菜单下的点击启动非词表。
加密词表
如果要对词表加密,则点击工具菜单下的加密词表;如果要解密词表,则则点击工具菜单下的解密词表即可。
打开词典目录
点击工具菜单下的打开词典目录即可。
(4)汉语频度分析
点击功能性分析下拉列表框中的汉语词频分析选项,打开汉语词频统计窗口,在分词后待统计词频文件文本框中载入分词后的文件,如“虚拟学习团队2010‐8‐7_分词后.txt ”,则系统自动载入过滤词表,并在输出文件文本框中生成词频统计文件“虚拟学习团队2010‐8‐7_
。在归并词群表文本框中载入归并词群表,还可以分词后_词频.txt ”
对文档中的词进行归并。在保留词表文本框中载入保留词表,则可
,ROST CM6使用手册
以将文档中在保留词表中的词保留下来。
(5)社会网络和语义网络分析
点击功能性分析下拉列表框中的社会网络分析选项,打开ROST 语义网络和社会网络生成工具,在待处理文本框中载入待处理文件(待处理文件格式可以是一行一句的未分词文件,比如聊天记录,全网分析中的摘要文件等;也可以是一句若干词的已分词文件;还可以是多行有关联的已分词文件),然后点击高频词按钮,可以生成高频词表;点击过滤无意义词按钮,可以生成过滤后的高频词和共现矩阵词表;点击提取行特征按钮,可以生成行特征词;点击构建网络按钮可以生成语义网络的.VNA 文件和.txt 文件,如果进一步点击启动
NetDraw 按钮,则可以打开NetDraw 工具,查看图形结果;点击构建矩阵按钮则可以生成共现矩阵文件。双击文件框可查看相应结果。
如果想进行快速分析,则载入待处理文件后,点击“快速分析”按钮,即可一次生成上述文件。可以是聊天内容文件,文件格式是
例如,以下是对“虚拟学习团队摘要文件”分析的结果:
,
ROST CM6使用手册
(6)情感分析
点击功能性分析下拉列表框中的情感分析选项,在待分析文件路径文本框中载入待分析的文件,点击分析,然后双击各文本框后的查看,即可查看情感分析详细结果、情感分段统计结果、中性情绪结果文件和情感分布统计视图结果。
8
,ROST CM6使用手册
(7)流量分析
点击功能性分析下拉列表框中的流量分析选项,打开Rost Alexa 网络流量分析工具,在输入网址文本框中输入要进行流量分析的网址,点击数据分析按钮即可。
还可以在该工具中进行批量分析,这时只需要点击批量分析按钮,导入需要进行批量分析的网页链接表,即可得到批量分析结果。
(8)TF/IDF批量词频分析
点击功能性分析下拉列表框中的TF/IDF批量词频分析选项,打开TF/IDF批量词频分析窗口,点击批量打开文件按钮,选择需要打开的文件夹,即可在工具栏的下方打开所选文件夹中所有的.txt文件。勾选文件前面的复选框,选中文件(可同时勾选多个文件),点击计算批量文件IDF ,窗口的左下方即可出现所选文件的IDF 值。在已计算完IDF 值的文件中选择一个文件,
9
,ROST CM6使用手册
然后点击计算当前所选文件TFIDF 值,则在窗口的右下方出现所选文件的TFIDF 值。 (9)相似分析 点击功能性分析下拉列表框中的相似分析选项,打开文档相关性监测工具,首先点击打开按钮,在待查文章选项卡下可以打开要检测的文档,点击检测按钮,即进行文档相关性检测,并可在结果查看选项卡下查看检测结果。点击停止按钮,即可停止检测。点击结果按钮,可以查看分析统计数据。点击目录按钮,可以打开相似度分析目录。点击退出按钮,即可退出检测系统。
(10)网站信息分析
点击功能性分析下拉列表框中的网站信息分析选项,打开ROST 网络环境分析窗口,点击分析按钮,即可完成网络的环境分析。
(11)聚类分析
点击功能性分析下拉列表框中的聚类分析(测试模块)选项,打开聚类分析窗口,在待处理文本框中载入待类聚文件,然后填上类别数量,点击开始聚类即可对所选文件进行聚类分析。
(12)分类分析
点击功能性分析下拉列表框中的分类分析(测试模块)选项,打开短文本分类工具窗口,在待处理文本框中载入待分类文件,然后填上按第几字段分类,点击分析即可对所选文件进行分类分析;双击输出文件框中的文件目录即可打开分类后文件;双击特征词表中的文件目录即可看到特征词表。