编程资源

国人开发的Crawler_Spider网络蜘蛛源码

资源类型:开源软件
资源语言:简体中文
作      者:孙君意
资源大小:7.37 MB
更新时间:2015-03-31
上传用户:aquwcw
运行环境:/Win9X/Me/WinNT/2000/XP/Other

资源简介

这是国人开发的爬虫程序,可用来学习研究用,内有详细的文档。

本项目基于微软.Net2.0平台,用C++/CLI 编程实现了网络蜘蛛(Web Spider)。该蜘蛛可以访问用户指定的一个或多个站点,遍历站点内的所有网页,并且把网页分解成标题、纯文本内容、网页大小等属性,然后保存在ACCESS数据库中。

作品名称:网络蜘蛛(WebSpider)
作者:孙君意(sunjunyi@software.ict.ac.cn)

解决的主要问题:
对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。
存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等

主要应用场景:
可用于数据采集、数据挖掘以及搜索引擎的前期工作


使用说明:

1.直接点击bin目录下的WebSpiderEh.exe,即可开始抓取网站。
2.bin\db.mdb中的sites表配置您要抓取的网站,pages表保存抓取的结果。
3.maxDepth.txt中的数字控制抓取的深度。
4.throughput.txt中的数字控制蜘蛛的吞吐量,一般不用修改,如果您的网速很快,可以将数字调大一点。

相关文章:http://www.panshy.com/article/Sort_Desktop/netWork/2013-10-02/2432.php

Crawler_Spider示例图片.jpg

感谢 孙君意 支持 磐实编程网 原文地址:
mailto:sunjunyi@software.ict.ac.cn

下载地址列表 - 磐实编程网 解压密码: www.panshy.com

上一篇:返回列表

下一篇:全文检索Sphinx最新版