文本挖掘软件ROST CM更新及用户交流有感
2010/9/2 点击数:1404
[作者] 梦我所想
[单位] 武大沈阳的博客---触发灵感的最大值
[摘要] 今天对ROST CM做了紧急更新。主要修改了相似分析的一些小内容。建议一定要在电信网使用,不要有敏感词。如果有网友查英文,可以给我们一些反馈意见。此外增加了一些高频过滤词。便于社会网络分析,如果有网友使用过程中积累了比较好的高频过滤词表,也可以发会给我。
今天对ROST CM做了紧急更新。主要修改了相似分析的一些小内容。
建议一定要在电信网使用,不要有敏感词。如果有网友查英文,可以给我们一些反馈意见。
此外增加了一些高频过滤词。便于社会网络分析,如果有网友使用过程中积累了比较好的高频过滤词表,也可以发会给我。
升级了情感分析模块,增加了显示负面结果详解、正面结果详解。
修正了期刊分析中的一个bug,在电信网,可以直接下载某些期刊摘要类数据。
优化了网站分析的简单模式抓取,同时发布了网页格式化采集工具 ROST DetailMiner,在www.fanpq.com
右下角,里面有5个例子,可以好好看看,目前没有直接整合进来,想和ROST WebSpider做一个更细的整合,可能需要花费1-2个月时间。可以先看看一下ROST CM6 使用手册
到下周我们会发布数个ROST 常规工具的新模块,先给一个样品
感兴趣的可以试试一下。
http://www.fanpq.com/soft/uploadsoft//ROSTEnANA.rar,界面有点粗糙。不过功能都有了。
可以查询一个网站的所有收录信息、IP、排名、Pagerank、百度指数。下周基本能发布正式版。这个工具。
另外ROST NewScan 已经进入了发布大范围的外测版的前奏了。NewScan是我们打造的新一代新闻计算的平台。目前已经有很早期的版本(Bug还很多)供下载。需要.NET Framework 3.5 Win7已经自带了。
http://www.fanpq.com/soft/uploadsoft//ROSTNS.rar
另外10月份我们会有一到两个新的创意性工具发布。
----------------------------------------------------------
有位网友跟我说:
您的每个版本我都留着的
看到这里我挺感动。觉得一切的精力都没有白费。
----------------------------------------------------
今天一位著名软件公司的数据分析师也在用我们的软件。
以下是对话记录:
你好 我在做社会网络分析的时候遇到一个问题 我想通过一些聊天记录 非QQ聊天记录 来挖掘每个人之间的关系 比如A和B说过话 A和C说过话 类似这样的一个关系 请问利用这个软件应该怎么做 好像没有现成的功能
可以啊
你首先要有样本
类似这样的一个关系总表
都是一条条记录
那就把这个存成ansi格式文本文件
然后再社会网络分析中选择第二种格式
即可
你现在的excel存为每个字段用Tab键隔离的ansi格式的文本文件即可
点快速分析就出来结果了
那ansi格式怎么才能存?我现在用Excel打开的
excel另存为文本文件
然后打开文本文件再另存为ansi格式
嗯 存好了
然后再社会网络分析中选择第二种格式
第二种格式 是什么意思啊
我现在是这个页面
点第一个文件选择框,里面的第二个过滤条件
然后最后点快速分析
是点这个吗
点第一个文件选择框,里面的第二个过滤条件
哦 我好像知道了 我试下
呵呵 明白了 是第二种文件类型
搞定了吗
嗯 搞定了 呵呵
那就好
你把部分语料,和结果图发给我
我是XX软件一名年轻的数据分析师 非常喜欢您开发的这个软件
好
这是结果图
如果你对里面的东西觉得不好的,还可以自己调整每一个步骤
没事的
还可以自己调整每一个步骤 请问这个要如何实现?
在刚才那个社会网络分析的界面中,每一步都是可以调整的。
原文连接:http://hi.baidu.com/whusoft/blog/item/461d1bb57add3cc036d3ca08.html