技术无罪
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
技术无罪,解析爬虫技术带给我们生活中哪些改变!
每到节假日,小采的朋友圈里总是会看到这样的照片,并且还配上一段“麻烦帮我点一下,,,之类语法可能会变语意永远相同的类似语句。”
每当这个时候我就知道陶子又要抢回家的火车票了。
不知何时,每年都有那么几天,小采的朋友陶子总会心情焦虑,坐立不安,按他的话来说:“去火车站抢票是永远不可能去的,也就只能靠着抢票软件维持生活了。”这两年他换了不止数款抢票软件,可以说是抢票行家了。
作为家中独子,我很能理解他的感受。
但作为一个有梦想的运营喵,我不禁对这种抢票软件产生了浓浓的兴趣。
这分明代表着——“话题!!!”
今天我们就从抢票软件开聊,谈谈爬虫技术带给我们生活中哪些改变!
众所周知,抢票软件的背后,藏着无数个叫做“爬虫”的小东西
喏,它们长这样:
等等,好像有点不对劲,应该是这样的爬虫:
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫就像是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在互联网这栋四通八达的大楼里不知疲倦地爬来爬去。
现在我们的身边的网络处处都可见这些小可爱的影子,它们善恶不同,各怀心思,越是利益相关的地方,就越是布满了爬虫。
图片来源:云鼎实验室
在出行方面出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得被这样的人脸验证码支配的恐惧吗?
像这种“神坑”的验证码并不是为了为难我们这些老实本分买票的人的,正相反,它研发的目的就是为了阻止爬虫(也就是抢票软件)的点击。上面说过,爬虫是一个死板的东西,它只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
但是“道高一尺魔高一丈”,光凭这样吸纳然是无法阻挡爬虫的脚步的,现在市面上盛行的各类抢票软件就是明证!
有一种东西叫做“打码平台”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
“12306”为什么不做措施防止采集呢?你可能会问。
你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
总结:所以不是不想防,而是防不胜防啊!,真是个悲伤的故事!
说完出行难,我们再来谈谈社交吧。
上图是爬虫经常光顾的微博地址。
这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。
获得这些,能搞出什么骚操作呢?
“僵尸粉”的上班流程了解一下——你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。
更甚者,还可以利用这套流程发家致富:
1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。
2、我去找一个app开发公司,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条app的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。
3、我发出注册链接,然后没人点。。。
4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。
5、我躺在床上,笑眯眯地数着赚来的一万块钱。
(以上数据不一定和现实吻合,只是展现一个逻辑。具体操作也会更复杂。)
第三.你平时点开的大众点评和美团等美食软件上的点评信息是真的吗?
答曰:部分是真,部分是假,真真假假谁又说得清呢?
造成这种情况的还是爬虫:
很多刚上点评的商户,信誉值不高,就会用爬虫来模拟留言、点赞,刷高自己的信誉值。同理,淘宝、京东等电商用户也是如此。
所以,这些平台都对这种刷单行为深恶痛绝,因为一旦松懈平台的信誉值就完蛋了。
很多人做过网站,应该知道“权重值”的意思,那么怎么提升权重呢?
你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。
既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做SEO(搜索引擎优化)。
我就举个例子,随意搜索一个关键词,它排在前面的网址,有可能就是经过SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗SEO。
所以才会有那么多的悲剧,百度医疗竞价排名害死人事件不知道的同学可以去了解一下。SEO是一把双刃剑,它可以救人也可以害人,技术不分好坏,善恶只在掌握它们的人手上。
说了这么多,我猜你会有几个疑问。
问题1、爬虫搞出这么多姿势,它究竟是不是违法呢?
这个问题还真的不简单。
我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。
于是我又继续搜索,发现了几条司法解释: