小幅更新ROST WebSpider软件兼期刊分析的说明
2010/8/24 点击数:1257
[作者] 梦我所想
[单位] 武大沈阳的博客---触发灵感的最大值
[摘要] 最近我们团队的王鹏同学把ROST WebSpider修改了之后,我们做了一次更新,本次修改主要优化了界面,增加了一个新的功能,就是在批量抓取链接的时候,时间间隔的设置,防止某些网站封锁死客户的IP地址,这种模式最好是单线程情况下使用。
[关键词] ROST WebSpider 期刊
最近我们团队的王鹏同学把ROST WebSpider修改了之后,我们做了一次更新,本次修改主要优化了界面,增加了一个新的功能,就是在批量抓取链接的时候,时间间隔的设置,防止某些网站封锁死客户的IP地址,这种模式最好是单线程情况下使用。
下载地址:http://www.fanpq.com/soft/uploadsoft/RostWebSpider.rar
同时把捆绑了ROST Web Spider(就是ROST CM中的网站分析中的高级网站抓取器)的ROST CM也做了一些小幅更新,根据用户发现的一些小Bug,做了微调。
下载入口:http://hi.baidu.com/rostcm/blog/item/6dea9f0d7a13068fd0581bf6.html
比如新浪微博改版后我们立即就升级了软件,因此还是可以顺利的备份和抓取数据。
有的同学反映在教育网内期刊分析无法使用。在我这里网速较快的情况下是可以使用的。以下是用ROST CM期刊分析抓取下来的部分数据截图。也有可能不是网速问题,原因待查。也许是教育网本身的IP限制问题。
另外香港城市大学的一位老师(还是博士?)问到批量文件词频统计的功能,其实使用TFIDF模块即可获得需要结果。
最近我们团队内部核心群公开了ROST NewScan,Bug还很多,不过初步可用了。在大家的努力下,争取在武大开学前发布团队普通群更大范围的测试版。
最近黄记同学按照我的一个想法,实现了一款超级人肉搜索工具的一个子模块,功能比较强大,我还没有考虑好是否公开这个软件,这个软件对某些人的杀伤力很大。
在人物搜索以及其他几个涉足的小领域,最近有不少好的想法,还需要一步步去实现出来。
这几天自己想写一下论文,争取有个雏形吧,准备中文投科技论文在线,英文投一个期刊。
原文连接:http://hi.baidu.com/whusoft/blog/item/fd283becac443bdf2f2e21bc.html