文本挖掘软件ROST CM更新及用户交流有感

2010/9/2   点击数:1404

[作者] 梦我所想

[单位] 武大沈阳的博客---触发灵感的最大值

[摘要] 今天对ROST CM做了紧急更新。主要修改了相似分析的一些小内容。建议一定要在电信网使用,不要有敏感词。如果有网友查英文,可以给我们一些反馈意见。此外增加了一些高频过滤词。便于社会网络分析,如果有网友使用过程中积累了比较好的高频过滤词表,也可以发会给我。

[关键词]  文本挖掘 软件 用户 ROST CM



今天对ROST CM做了紧急更新。主要修改了相似分析的一些小内容。

建议一定要在电信网使用,不要有敏感词。如果有网友查英文,可以给我们一些反馈意见。

此外增加了一些高频过滤词。便于社会网络分析,如果有网友使用过程中积累了比较好的高频过滤词表,也可以发会给我。

升级了情感分析模块,增加了显示负面结果详解、正面结果详解。

修正了期刊分析中的一个bug,在电信网,可以直接下载某些期刊摘要类数据。

优化了网站分析的简单模式抓取,同时发布了网页格式化采集工具 ROST DetailMiner,在www.fanpq.com

右下角,里面有5个例子,可以好好看看,目前没有直接整合进来,想和ROST WebSpider做一个更细的整合,可能需要花费1-2个月时间。可以先看看一下ROST CM6 使用手册

到下周我们会发布数个ROST 常规工具的新模块,先给一个样品

感兴趣的可以试试一下。

http://www.fanpq.com/soft/uploadsoft//ROSTEnANA.rar,界面有点粗糙。不过功能都有了。

可以查询一个网站的所有收录信息、IP、排名、Pagerank、百度指数。下周基本能发布正式版。这个工具。

另外ROST NewScan 已经进入了发布大范围的外测版的前奏了。NewScan是我们打造的新一代新闻计算的平台。目前已经有很早期的版本(Bug还很多)供下载。需要.NET Framework 3.5 Win7已经自带了。

http://www.fanpq.com/soft/uploadsoft//ROSTNS.rar

另外10月份我们会有一到两个新的创意性工具发布。

----------------------------------------------------------

有位网友跟我说:

您的每个版本我都留着的

看到这里我挺感动。觉得一切的精力都没有白费。

----------------------------------------------------

今天一位著名软件公司的数据分析师也在用我们的软件。

以下是对话记录:

你好 我在做社会网络分析的时候遇到一个问题 我想通过一些聊天记录 非QQ聊天记录 来挖掘每个人之间的关系 比如A和B说过话 A和C说过话 类似这样的一个关系 请问利用这个软件应该怎么做 好像没有现成的功能

可以啊

你首先要有样本

类似这样的一个关系总表

都是一条条记录

那就把这个存成ansi格式文本文件

然后再社会网络分析中选择第二种格式

即可

你现在的excel存为每个字段用Tab键隔离的ansi格式的文本文件即可

点快速分析就出来结果了

那ansi格式怎么才能存?我现在用Excel打开的

excel另存为文本文件

然后打开文本文件再另存为ansi格式

嗯 存好了

然后再社会网络分析中选择第二种格式

第二种格式 是什么意思啊

我现在是这个页面

点第一个文件选择框,里面的第二个过滤条件

然后最后点快速分析

是点这个吗

点第一个文件选择框,里面的第二个过滤条件

哦 我好像知道了 我试下

呵呵 明白了 是第二种文件类型

搞定了吗

嗯 搞定了 呵呵

那就好

你把部分语料,和结果图发给我

我是XX软件一名年轻的数据分析师 非常喜欢您开发的这个软件

这是结果图

如果你对里面的东西觉得不好的,还可以自己调整每一个步骤

没事的

还可以自己调整每一个步骤 请问这个要如何实现?

在刚才那个社会网络分析的界面中,每一步都是可以调整的。

原文连接:http://hi.baidu.com/whusoft/blog/item/461d1bb57add3cc036d3ca08.html