小幅更新ROST WebSpider软件兼期刊分析的说明

2010/8/24   点击数:1257

[作者] 梦我所想

[单位] 武大沈阳的博客---触发灵感的最大值

[摘要] 最近我们团队的王鹏同学把ROST WebSpider修改了之后,我们做了一次更新,本次修改主要优化了界面,增加了一个新的功能,就是在批量抓取链接的时候,时间间隔的设置,防止某些网站封锁死客户的IP地址,这种模式最好是单线程情况下使用。

[关键词]  ROST WebSpider 期刊



最近我们团队的王鹏同学把ROST WebSpider修改了之后,我们做了一次更新,本次修改主要优化了界面,增加了一个新的功能,就是在批量抓取链接的时候,时间间隔的设置,防止某些网站封锁死客户的IP地址,这种模式最好是单线程情况下使用。

下载地址:http://www.fanpq.com/soft/uploadsoft/RostWebSpider.rar

同时把捆绑了ROST Web Spider(就是ROST CM中的网站分析中的高级网站抓取器)的ROST CM也做了一些小幅更新,根据用户发现的一些小Bug,做了微调。

下载入口:http://hi.baidu.com/rostcm/blog/item/6dea9f0d7a13068fd0581bf6.html

比如新浪微博改版后我们立即就升级了软件,因此还是可以顺利的备份和抓取数据。

有的同学反映在教育网内期刊分析无法使用。在我这里网速较快的情况下是可以使用的。以下是用ROST CM期刊分析抓取下来的部分数据截图。也有可能不是网速问题,原因待查。也许是教育网本身的IP限制问题。

另外香港城市大学的一位老师(还是博士?)问到批量文件词频统计的功能,其实使用TFIDF模块即可获得需要结果。

最近我们团队内部核心群公开了ROST NewScan,Bug还很多,不过初步可用了。在大家的努力下,争取在武大开学前发布团队普通群更大范围的测试版。

最近黄记同学按照我的一个想法,实现了一款超级人肉搜索工具的一个子模块,功能比较强大,我还没有考虑好是否公开这个软件,这个软件对某些人的杀伤力很大。

在人物搜索以及其他几个涉足的小领域,最近有不少好的想法,还需要一步步去实现出来。

这几天自己想写一下论文,争取有个雏形吧,准备中文投科技论文在线,英文投一个期刊

原文连接:http://hi.baidu.com/whusoft/blog/item/fd283becac443bdf2f2e21bc.html