|
|
|
|
公众号矩阵

图片伪装反爬虫的原理和破解方法

图片伪装反爬虫的本质就是用图片替换了原来的内容,从而让爬虫程序无法正常获取,我们只要将里面的内容识别、提取出来就可以破解这种反爬虫。

作者: 志斌 来源:志斌的python笔记|2021-06-09 18:22

本文转载自微信公众号「志斌的python笔记」,作者志斌 。转载本文请联系志斌的python笔记公众号。

大家好,我是志斌~

今天志斌来给大家分享一下如何破解文本混淆反爬虫中的图片伪装反爬虫~

01定义

现在许多大型网站的反爬虫方式是将图片与文字混合在一起,放到页面上进行展示。这种混合展示的方式并不会影响用户的正常阅读,但是却可以限制爬虫程序获取这些内容。如下图:

02原理

这种反爬虫的原理十分简单,就是将本应是普通文本内容的部分在前端页面中用图片来进行替换,从而达到“鱼目混珠“的效果。

03破解

因为这种反爬虫方式是将内容进行替换,所以我们无法进行绕过,只能破解它来获取我们想要的内容。

破解的方法也比较简单,我们只需要将图片下载下来然后对里面的内容进行提取即可。提取图片中的文字有很多方式,我用的是百度AI来进行提取。代码如下:

  1. from aip import AipOcr 
  2. APP_ID = '你的APPID' 
  3. API_KEY = 'API Key' 
  4. SECRET_KEY = '你的Secret Key' 
  5. client = AipOcr(APP_ID, API_KEY, SECRET_KEY) 
  6. with open(img,'rb'as f: 
  7.   image = f.read() 
  8. word = client.basicGeneral(image) 

在之前的文章中我分享过一个用百度api进行提取图片中内容的方式,有兴趣的读者可以看看这篇文章20行代码教你如何批量提取图片中文字。

04小结

1. 图片伪装反爬虫的本质就是用图片替换了原来的内容,从而让爬虫程序无法正常获取,我们只要将里面的内容识别、提取出来就可以破解这种反爬虫。

2. 破解这种反爬虫的难度并不大,但是代码书写可能较为繁琐,读者们可以提前写好流程图,然后在进行书写。

3. 目前这种反爬虫方法已经被各类大型网站所应用,所以大家要掌握这种反爬虫的绕过方法。

4. 本文旨在学习与研究图片伪装反爬虫,请大家不要用于非法用途。

【编辑推荐】

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区
  2. Google Earth 数据破解之旅-影像破解
  3. 如果偷了网站的私钥,SSL真的会被破解吗?
  4. 谷歌正在应用AI破解数据中心的下一代地热能
  5. 区块链不可能三角:听说破解它就能获得荣誉和财富
  6. 攻防演练中无文件攻击PowerShell的破解之道
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

视频课程+更多

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微