用于从指定网站采集海量精华文章
2015.03.02
2012.12.20
2014.08.26
2015.06.09
2015.06.17
2014.08.12
红叶文章采集器用于从指定网站采集海量精华文章,将直接丢弃其中的垃圾网页信息,仅保存具备阅读价值和浏览价值的精华文章,自动执行HTM-TXT转换。
软件特点:
1、本软件采用北大天网MD5指纹排重算法,对于相似相同的网页信息,不再重复保存。
2、采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个权重关键字,[[UR]]表示网页中的图片链接,[[TXT]]之后为正文。
3、蜘蛛性能:本软件开启300个线程来保证采集效率。通过采集100万精华文章来执行压力测试,以普通网民的联网计算机为参考标准,单台计算机可以在一天内遍历200万网页、采集20万精华文章,100万精华文章仅需5天就可采集完毕。
4、正式版与免费版的区别在于:正式版允许将采集的精华文章数据自动保存为ACCESS数据库。
使用方法:
1、使用前,必须确保你的计算机可以连通网络,且防火墙不要拦截本软件。
2、运行SETUP.EXE和setup2.exe,以安装操作系统system32支持库。
3、运行spider.exe,输入网址入口,先点"人工添加"按钮,再点"启动"按钮,将开始执行采集。