欢迎光临智优营家官方网站!

您贴身的
网络运营管家

 智优学院  / 网络营销 点击返回 > >

12306为啥要区分白百合和王珞丹?

来源:智优营家    发布日期:2018-11-23    关注:2503

  11月22日,既是小雪节气又是感恩节,再四舍五入一下这日子已经逼近年关,这关口不得不提一个“火车票预售”的话题。

  每年的12306的验证码都会成为自媒体者调侃的对象,比如之前大火的要选择“白百合&王珞丹”。

  为啥12306会搞出这么“坑爹”的验证码?实际上,就是为了防止“恶意”爬虫。(也可以看看浅黑科技在搜狐平台发布的《我收到一份中国图鉴》文章)

  爬虫是什么?

  爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

  但是,爬虫也分善恶。

  像百度这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。

  但是,像抢票软件这样的爬虫,对着12306每秒钟恨不得撸几万次。12306并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)

  给你看一张图:

  这张图里显示的,就是各行各业被爬“叨扰”的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。

  二:接下来我们来聊聊爬虫的骚操作了

  1、出行

  出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着12306去的。

  我们说回到“白百合&王珞丹”验证码。

  这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。

  你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。

  没错。抢票软件也不是吃素的。 它们在和12306搞“对抗”。

  有一种东西叫做“打码平台”,你可以了解一下。

  打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。

  当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。

  你可能会问:为什么12306这么抠呢?它大方地让爬虫随意爬会死吗?

  答:会死。

  你知道每年过年之前,12306被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。

  况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?

  铁路被爬虫“点鸡”成这样已经够惨了,但它还有个难兄难弟,就是航空。

  而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。

  看看航空类爬虫的分布比例

  很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷X度假之首选。

  为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。

  本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。

  据我所知,他们是这样玩的:

  技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。

  亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。

  “我是中间商,我就要赚差价!”这波骚操作,堪称完美。

  2、社交

  社交的爬虫重灾区,就是你们喜闻乐见的微博。

  给你看张图:

  这是爬虫经常光顾的微博地址。

  这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。

  获得这些,能搞出什么骚操作呢?

  你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么...

  还有更骚的么?有的。

  你家爱豆不是经常在微博上发红包么?好的,我率十万僵尸粉去抢。

  凭本事抢来的红包,就问你有什么不妥吗?

  除了这个,还有“果姐”(公众号ID:HUGO)在《吴亦凡造假,他们才是受害者》一文中说:微博号称3亿用户,结果关注安吉拉大宝贝的用户1个亿,关注杨幂的差不多1个亿,还有1亿人帮蔡徐坤在转微博。

  这些数据哪来的?结合爬虫想想吧~我就不多说了。

  3、电商

  你回忆一下,有几种东西叫做“比价平台”“聚合电商”和“返利平台”。他们大体都是一个原理:

  你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。

  这就是爬虫的功劳。它们去淘宝上,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。

  这个原理和搜索引擎差不多。只不过他们展示的不是网页而是商品。 但是被放在一起比价,淘宝是拒绝的,京东也是拒绝的啊。

  然鹅,由于机器爬虫模拟的是人的点击,电商很难阻止这类事情发生。他们甚至都不能向12306学习。

  你想想看,如果你每点开一个商品详情,淘宝都让你先分辨一次白百合和王珞丹,你肯定没心情剁手,没准还要提刀去剁马云呢。

  4、搜索引擎黑帽

  注意到我们智优营家在官网上写的seo优化优势吗?——人工白帽手法。

  白帽手法会根据搜索引擎的喜好,将网站进行调整修改,甚至还会要求重新做网站来符合搜索引擎的算法(里面包含了点击次数、内容质量、网页结果、代码结构等等很复杂的东西),让善意“爬虫”去扫网站并把它搬运出来,给用户去展现看。 

  而黑帽是造假,边说“走过路过别错过,这里都是高质量内容很多用户喜欢看啊,我们点击可高啦!”,边把“爬虫”骗过来搬运,于是看自己的网站排名三天之内甚至是一天,嗖嗖往上涨排到首页了。

  你觉得可以停了,不用做“优化”了,结果排名又嗖嗖往下掉——这还是结果比较好的,如果用人工白帽手法就不用担心这类问题(除开抢的特别凶的核心词哈~);   

  还有的运气不好,被查出来,那网站基本上就凉了,这个域名都别想再用。   

  今天的课堂超时了,不过音乐老师请假,大家好好复习吧,啊哈哈~