金蜘蛛(金速探索) 是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
1)该软件操作方便、简单容易上手,无复杂的逻辑操作,是您的收集助手
2)新建任务:名称、入口URL地址、保存路径必须填写出现乱码请选择编码
3)如果360或防火墙提示为木马或病毒软件、请加入信任
4)运行任务数量越多cpu资源占用比例越多,不推荐全部运行所有程序,每个任务线程数量根据系统资源调整
5)任务每隔3分钟存储一次,保存在下载文件夹中,压缩类型如exe,zip等只提取地址不下载,其余文件类型全部下载保存
6)压缩类型文件提取后的地址可用下载工具批量下载
7)优先级设置关于最先采集什么样MIME类型,等级1-5(由低到高)过滤器则跳过不需要采集的MIME文件类型
(图片、文档、MP3只 全部拿下)