web扫描爬虫优化

安全 应用安全
公司要弄自动化的扫描工具,目前市面上的工具都无法针对业务进行检测,所以只能自己开发。辣么,就有个问题,爬虫需要自己去写。

0x01 需求背景

公司要弄自动化的扫描工具,目前市面上的工具都无法针对业务进行检测,所以只能自己开发。辣么,就有个问题,爬虫需要自己去写。

之前自己也写过相关的爬虫,但是要么是半成品,要么就是垃圾代码…很多都无法直接引用,所以,在强大的KPI考核下,强迫自己代码重构。用Python写起。

0x02 遇到问题

本身在爬虫上轻车熟路,很轻易就写出了一个根据多线程的爬虫,完成整站扫描,但是问题来了,效率如何提高。仔细观察下扫描的链接就发现,它爬取了很多链接,都是一些重复性比较高的链接,例如以下:

 

 

这些链接都是静态的页面,也就是一些新闻之类的,页面架构的都差不多,这个情况我们自己知道,但是爬虫是不了解的。它只是按照我们指定的规则去做,所以导致爬虫效率降低。

在我预想的情况下,一些静态的页面,我们是可以减少抓取的,通过减少抓取我们可以提高整体的效率。例如:

http://www.xxx.com/news/ziyue/2014/1029/61069.html

http://www.xxx.com/news/ziyue/2014/1029/61070.html

http://www.xxx.com/news/ziyue/2014/1029/61071.html

这三个URL中,我们只需要抓取一条作为典型,完全就能达到我们的需求,不需要将所有的抓下来。因为大家都知道,这是伪静态生成的。那么问题来了,该怎样去做这个规则?小伙伴可能有想法说:“你怎么知道这种静态页面就一定架构一样呢?” 好吧,我不确定,但是我有办法去确定。现在就以上面的URL做个拆分了解下:

http://www.xxx.com/ 这个是host

/news/ziyue/2014/1029/ 这个是具体的目录,或者说是具体的文章归类。

61069.html 这个是具体的页面。

上面分析后,小伙伴又有新的问题:“莫装逼,你怎么知道人家的URL一定按照这个标准来?” 好吧,对此我整理了下我所发现的URL组合规则,目前很多URL都是以以下几种方式组成的。

1)静态页面型:

http://[host]/xxx/xxx/xxx/[int|string].html

2)rewrite型:

http://[host]/xxx/xxx/xxx/[string|int]

3)目录型:

http://[host]/xxx/xxx/xxx/Catalog/

4)不固定型:

http://[host]/xxx/xxx/xxx/file.[asp|php|aspx|do|jsp]?[string|int]=[string|int]

0x03 奇葩的实验

找到了这些规律后,应该考虑怎样去把爬虫的质量提升起来,降低重复率,然后就有了以下奇葩的实验:

1)先建立规则:

 

 

2) 然后针对这些规则进行引用、测试。

 

 

运行结果诸如:

 

 

确实达到了我期望的结果…. 本文只是抛砖引玉,可能代码略挫。各位大侠轻拍,射射。

【实验前】

 

【实验后】

 

责任编辑:蓝雨泪 来源: 乌云知识库
相关推荐

2018-03-07 11:53:12

2020-12-10 11:35:14

Web安全扫描工具漏洞

2024-03-12 09:47:10

Redis数据库

2014-12-10 10:12:02

Web

2010-09-17 15:36:24

2021-04-27 06:45:23

Web安全工具

2012-06-13 17:38:57

2020-12-14 10:32:28

Web安全工具多线程

2013-03-25 10:23:24

路径扫描web路径扫描工具扫描

2010-09-15 12:15:23

NessusWEB应用安全扫描

2011-02-17 18:51:10

2010-11-24 11:32:46

2013-08-14 10:24:38

2016-02-26 15:28:45

CasperJSWeb爬虫

2022-03-02 11:13:50

Web前端开发

2014-08-26 10:29:31

2018-09-10 11:07:19

2012-09-13 11:13:26

IBMdw

2012-01-10 16:22:25

Web

2019-12-23 10:20:12

Web图片优化前端
点赞
收藏

51CTO技术栈公众号