关系经济人类预测化学自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

爬虫玩的好监狱进的早

2月22日 相见欢投稿
  爬虫玩的好,监狱进的早将不能被爬取的网站明码的列在了robots。txt中,这无异于是在挑衅、引起某些爬虫得不到的永远在骚动的强烈探知欲望。
  大公司因爬虫涉黑高管被带走调查的消息频频传出,情况就如多米诺骨牌一般,不断的坍塌,君子协议被看作是道德的约束,反爬机制也一直在九攻九距,爬虫从道德到法律上还是一个多变脸。
  我终于上岸了,可能不需要再下海了吧?AI星球走访一位多年深陷网贷泥潭的年轻人这样说道。
  如今很多人都会因各种情况去借贷,没了就去借,还不上就分期,分期不小心便成了逾期。
  这种借贷生活慢慢便陷入了病态循环中,以致大多数不堪重负的贷民为了改善这种情况,会还清所有借贷、卸载APP、换手机号来让自己上岸。
  这位90后贷民是一个前几年刚从校园走来的创业大学生,因不好意思向父母伸手拿钱,过去的几年里一直都过着以贷养贷的生活,期间从未有过逾期的现象。
  但直到今年上旬,平静的日子被每天几十个电话的狂轰滥炸、企图曝光通信录、动辄问候双亲等威胁打破,以致90后贷民,从在短短20天内还了6万多的网贷,在重压之下他终于向父母坦白,还清了高达十多万元的网贷。
  虽然不是直接放贷平台,但看着他们一个个被查,如今他们终于可以尝尝那种心惊胆战、坐立不安的滋味了。。。。。。这位90后贷民听说近期多家风控公司被抓后这样说。
  如今大数据风险控制在金融行业得到了较为广泛的应用,比如在银行中,贷款业务是占银行风控日常工作比重最高的一类业务。
  一些中端的风控部门往往在客户阅读贷款细则时就开始对贷款对象的个人风险评估进行风险审核,只有审核通过后方可被提交到更高管理处审批。而对于一些期货、信托、小额贷款、融资租赁企业来讲,他们则侧重于信用、操作、市场、交易对手等风险操作。
  在消费金融科技领域中,大数据风控业务已成为关键环节。
  但当下大数据风控行业却迎来多事之秋,多家为互联网小贷公司、个人消费类业务金融等公司提供服务的大数据风控领域企业被抓,他们旗下的爬虫业务先后都因涉黑被暂停营业。
  这些企业收紧或叫停数据服务的背后与涉嫌利用网络爬虫技术侵犯个人隐私有关联。
  数据服务被叫停,风控行业陷恐慌
  9月6日下午,大数据风控平台杭州魔蝎科技有限公司(简称魔蝎科技)的创始人兼CEO周江翔被警方带走调查,其公司数据抓取业务或涉嫌侵犯隐私、助力暴力催收。
  据公开资料显示,魔蝎科技成立于2016年1月,是一家提供精准营销、风险分析、反欺诈、多维度用户画像、授信评分等多维度风险管理服务的公司。事发当天,其官网无法登陆,旗下的服务也突然终止,甚至有员工失联。
  同日,另一家提供大数据风控服务的新颜科技人工智能科技有限公司(简称新颜科技)CEO黄向前也被警方带走协助调查。对于此事,新颜科技内部客服人员予以否认,表示并不知情,业务正常开展。
  至此大数据风控公司被抓的、被查的情况并未结束,糟糕的是情况就如多米诺骨牌一般,不断的坍塌。
  还不到一周时间,这厢第三方数据服务公司聚信立于9月10号对外宣布:自9月6日起停止对用户提供爬虫相关类的业务,将配合国家政策对内部业务板块作整顿,而次日就被封了。
  另一边多位业内人士爆料,9月12日上午,天翼征信的总经理、副总经理以下及市场人员共计十余人皆被警察带走。据一位天翼征信内部员工透露:之前征信跟几家被查的爬虫公司有过相关合作,这次去主动说明情况了。
  大数据行业动荡不安,整个大数据行业如履薄冰,而更糟糕的事情依旧还在进行。
  消金时代独家报道,9月16日大数据风控平台同盾科技实控人兼CEO蒋韬竟为了避风头跑路了,解散了其下的爬虫部门,并建议员工:不要随便离开,否则会被抓的。
  显然同盾科技也被卷入了爬虫风暴中,于是在事发第二天便站出来辟谣:CEO跑路、员工被恐吓、举报友商都实属无稽之谈,同盾科技创始人蒋韬还将一直在国内进行日常的公司事宜,数聚魔盒已停止相关业务。
  而今日(9月27日),据宅客频道称:蒋涛被逼的发了一份公共声明,同盾又一次为此数据魔盒出头辟谣,表示同盾科技旗下杭州信川科技公司不涉及金融业务、不引流、不放贷,同时杭州信川相关人员也正积极协助警方调查第三方单位情况,一旦发现客户违规行为,同盾科技立即终止合作。(具体如下)
  起初,一连着几家知名的爬虫公司陆续被带走调查,业界人士都以为被查的、被抓的只是做爬虫相关业务的公司,但随着公信宝被封甚至连天翼征信这样的国企都涉及调查,行业内开始引起了恐慌。
  9月仿佛成了现金贷行业、大数据风控服务业的黑暗月,由起初的个案接连引发了多家数据公司被抓,一时间查处整治从杭州遍及到上海,似乎成为了一项全国性的禁黑活动。
  的确,网安及联合多个部门目前正针对大数据行业开展严查政治活动,据接近监管层的人士说:这次对数据公司的整顿清理是场大活动,目前已有几十家大数据公司被介入调查。
  近年来,大公司因爬虫涉黑高管被带走调查的消息频频传出。
  去年年底,就有现金贷系统供应商有脉金控,以及消金技术服务商同牛科技相继失联的消息传出,以及前几年著名的百度、奇虎360事件。
  2014年8月7日,北京一中院围绕奇虎科技有限公司(简称奇虎公司)是否以不正当行为违反了百度Robots协议作出了一审宣判。
  法院方面认为,奇虎公司违反了百度的爬虫Robots协议,依据360搜索引擎随意抓取百度的网页、甚至将用户的浏览链接直接跳转至360的快照界面的不正当行为,判决赔偿百度公司经济损失50万元及20万元的其他合理费用。
  百度方面表示,360公然违反了Robots协议,随意将百度公司的网站内容占为己有,侵犯了百度公司的权益。
  大数据风控行业及各大巨头企业都不断的迎来一波接波的震荡。其中的导火索都是因为爬虫业务。这也似乎印证了技术圈内的那句,爬虫玩的好,监狱进的早。
  喂养、抓取、解析:爬虫无限制循环
  2000年,eBay以对方故意违反君子协议向聚合价格信息的比价网BE(Bidder’sEdge一家提供一站式拍卖搜索的服务提供商)提起诉讼。
  eBay是一个电子交易网站,其在诉讼中表示:如若任其BE的行为,这将会怂恿其他与BE从事相似业务的公司肆无忌惮的搜索eBay的交易系统,将致使eBay因系统瘫痪或数据丢失而造成巨大的损失。
  最终,诉讼结果以eBay胜利而告终。这也是史上首例关于君子协议纠纷的爬虫官司,自此之后,爬虫技术、君子协议便慢慢走入寻常百姓家。
  大数据行业吃紧,现金贷行业中接连多家公司被大范围指控。被举报的、抓走的、指控的等多家商业公司也都在利用爬虫技术不断对数据进行爬取、搜集、整理。
  一位目前就职于搜索引擎公司的研发工程师告诉AI星球:爬虫本质上就是获取‘信息数据’的一种方式,除此之外也还包含了一些不常使用的名字,比如蚂蚁、自动索引、模拟程序或者蠕虫等。
  随着网络的不断发展,万维网(中国最大的域名注册和虚拟主机服务提供商)逐渐成为信息的载体,在信息应运而生的同时,利用信息赚取利益的企业也逐渐增多,并因此被称作网络爬虫(也被称为网页追逐者)。
  万维网上,各个网页都通过超链接相互连接在一起,形成一张巨型网状结构,而爬虫刚好按照这种特殊的网页结构沿着紧密的超链接不断的爬取数据,自动抓取万维网上的程序或脚本信息:
  通过URL的喂养,爬虫进行种子(seeds)抓取,解析Html网页,抽取其超链接,抓取信息,以此不断循环往复着。
  不论是明网、还是暗网,对爬虫来说,网站一般都会处于被动的、消极被抓取的地位。
  在这场利用爬虫技术索取信息数据的抢滩战中,胜败自然是兵家常事。有过五关斩六将,熬过了诉讼、自掏腰包保命的搜索引擎公司,也有当下国内外满负盛名的谷歌搜索引擎巨头。
  但值得思考的是,同样都在用爬虫,百度、谷歌搜索引擎巨头走上了信息时代的巅峰,而魔蝎、新颜、聚信立等科技公司反而被推上违法犯罪的风口浪尖,这背后主要关联着一份企业间的君子协议。
  君子协议的挑衅:得不到的永远在骚动
  90年代初,就有一些搜索引擎网站运用爬虫技术来抓取网上的大量信息,为了营造和谐的网络环境,一些搜索引擎从业者和网站站长通过邮件便定下了君子协议(Robots协议)。
  据一位资深程序员在接受AI星球的采访中表示:从功能上说,谷歌在收集数据时,有一种叫SEO(SearchEngineOptimization,搜索引擎优化)的方式,在工作原理上与爬虫相似,都存在着自己约定俗成的君子协议。
  历年来,在爬虫技术上,各个网站以防不良商家、个人利用爬取到的数据信息从事非法交易,也都在自己的网站中都设置了一份属于自己的君子协议Robots协议来维护自己的权益。
  Robots协议(RobotsExclusionProtocol)是网站为维护自身数据信息,通过一种约定俗成的规则告诉一些爬虫玩家、搜索引擎哪些页面可抓、哪些不能抓。
  例如这是京东的君子协议:
  (不要让无聊的代码阻挡你读下去的欲望,真正的君子协议要亮剑了)
  在上面的协议中:Useragent表示对哪些爬虫生效,表示所有爬虫;Disallow正如其译文一样,代表拒绝爬虫进行抓取的网址,表示根目录;通常爬虫对某些网站进行爬取时,要获取到robots。txt这个文件,通过解析其中的规则,来了解自己可以抓取的范围、规则。
  但事实上这些规则却是一种道德上认可,这种规则在爬虫看来:君子协议遵守了便是君子,视而不见时就像撕破了一张废纸。
  据资深程序员告诉AI星球:两年前,在当时的数据买卖市场中,通过爬虫抓取到的号码、身份等信息会通过暗网等渠道来出售,通常按号码质量来划分价格,每条标价在1毛至5毛不等,一些较隐私的身份证号码等信息售价会更高上几毛钱。虽然每条只有几毛的售价,但爬虫每次爬取的数量至少都在上万条。
  虽然在Robots君子协议上明码规定了哪些网站可以爬、哪些信息不能抓,但在利益面前,道德似乎永远都在让步。
  不仅如此,君子协议还存在着一个显而易见暴露隐私的问题:将不能被爬取的网站明码的列在了robots。txt中,这无异于是在挑衅、引起某些爬虫得不到的永远在骚动的强烈探知欲望。
  君子协议究竟是为保护隐私而生,还是在刻意暴露隐私?没有硬性法律在背后撑腰,君子协议徘徊于道德与被漠视之间,君子协议何时才会成为真正的君子。
  爬虫与反爬虫的攻坚战:黑灰产业的诱惑
  在爬虫技术刚兴起时,互联网还是一方净土,每个从业者都会默默的遵守君子协议。
  随着互联网的发展,个人隐私开始变成商品来贩卖,利益面前,君子协议也只是一纸道德,当君子协议开始失效时,反爬虫技术也应运而生。
  商家开始用技术手段来维护自己的利益:例如当用户对某一网站浏览过快时,系统会要求输入验证码,因为这种快速浏览的行为与爬虫相似。
  如今像这样随意将爬虫关键字输入进搜索引擎,大大小小的爬虫工具、python课程映入眼帘。
  的确近年来爬虫技术兴起,各个公司的网站为维护用户的隐私建立了君子协议,但这远远不够。据一家媒体报道,去年8月28日华住集团旗下连锁酒店近5亿条开房、住客信息被卖家在暗网中打包售出售。
  将容易被撕破的君子协议作为防备爬虫的终极防护墙显然是远远不够的,为此在各个公司的网站中他们还建立了自己的反爬虫机制,反爬虫正如其名字一样,针对爬虫而生的一种硬核技术。
  据就职于搜索引擎公司的一位研发工程师透露,最初的反爬虫与爬虫的攻防之战是以检测Http头部文件的版本号,当反爬虫一旦发现爬虫的不正当抓取行为,立即会以返回404、空页面、500等错误页面信息阻止其不正当行为。
  从一定程度上说,爬虫本身不具有浏览器的功能,仅作为一个客户端的形式存在。在网络上,没有绝对安全的系统,只有在激烈的攻防中不断提高自己的防御与攻击力,才能稳中求胜。
  在针对爬虫无休止的攻击,网站只有将反爬虫的复杂度不断提高,以此使得不良经销商在编写爬虫的难度上不断加大,这样随着爬虫复杂度不断提升,营销商的成本也呈现不断增长的趋势。
  当制作一个爬虫的成本远高于抓取得到信息数据的利益时,爬虫的存在也变的毫无意义。这是反爬虫的核心理念。
  据接受AI星球采访的资深程序员透露,若在暗网获取到某公司数据库的信息数据时,仅2G的数据量便可得卖到三到四万元,所以有很多兼职爬虫的程序员会利用这种黑灰产业不断的为自己牟利。
  在一篇报道中,一位程序员利用工作之外的闲暇时间兼职爬虫,仅一年的外快收入就超50万元。。。。。。
  目前看来,网页的反爬虫机制还不足以让爬虫们放弃,远抵挡不住暗藏在深处的黑灰产业所带来的诱惑,这场攻坚战未完待续。。。。。。
  公民身份证是爬虫应得的
  爬虫就其本质来讲,作为一种计算机技术就决定了它的中立性,其本身的技术并不能触犯到法律边缘,但利用其获取非法数据的行为具有违法犯罪的风险的。
  在刑法中,对爬虫的法律是这样规定的:
  《刑法》第285条第二款:违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制。
  处罚规定:情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
  在《刑法》的285条中,明显指出获取该计算机信息系统中存储、处理或者传输的数据属于违法行为,但更多的时候在大家的潜意识中多半参杂着道德的评判。
  利用爬虫技术既可以批量获取网络上的公共信息也可以抓取非法的个人隐私信息。
  就像谷歌的搜索引擎,每隔几天都会对网页的进行扫查、更新信息,用户可以实时获取到最新新闻,这种爬虫,虽与法律法规相悖,但其在一定的道德层面上被定义为善意爬虫。
  同时与之相随的是从抓取隐私数据到贩卖于暗网之上,恶意爬虫只能从法律层面来看待它。
  君子协议被看作是道德的约束,反爬机制也一直在九攻九距,爬虫从道德到法律上还是一个多变脸,在适当的时候我们应该为爬虫颁发一张像普通公民一样的身份证:因为爬虫就像人一样,会被利用,会徘徊于道德与法律之间,爬虫变的越来越难了。。。。。。
  文章来源:AI星球作者:奇点
投诉 评论 转载

学会化解客户疑虑了解客户真正需求迅速成交学会化解客户疑虑,了解客户真正需求,迅速成交今天为大家分享的是化解顾客的疑虑,迅速成交!昨天晚上已经为大家分享了成交的信号,那么各位伙伴要记住成交的关键时刻。当顾客把最终……外贸加油站外贸如何选择关键词网站的SEO推广主要围绕关键词展开,产品关键词词库的建立决定是SEO操作的第一步,也是决定SEO成败的关键步骤。下面来介绍如何整理你的产品关键词。01hr1。整理出产品的……素颜霜天天涂好吗好处和坏处有哪些素颜霜天天涂好吗天天涂素颜霜既是好事,也是坏事。好事在于,素颜霜本身就属于护肤品,内含护肤成分,具有美白提亮的功效,可将它算作面霜的一种;坏事在于,素颜霜中也含有化……仙境般的中国古桥来源:22号公馆)中国是桥文化的故乡,自古就有桥的国度之称。中国古代桥梁尤其受儒家天人合一和道家道法自然观念的影响,一座桥便是一种地方文化的形成,将建筑、艺术与科技和谐相……关羽麦城突围为什么要把周仓留下荆州失守以后,关羽只能退守麦城。当时关羽应该也知道自己只能背水一战,杀出重围,但是关羽准备突出重围只带走了自己的儿子却把周仓留了下来,关羽这是什么意思呢?当时关羽的情况还不如带……女人什么时候最容易将男人拉黑女人生起气来,绝对是男人致命的伤害,要么把你拉黑,要么不理你,让你一个人着急上火,实在的头疼的很,女人什么时候最容易将男人拉黑?男人们,一定要注意了,女人生气可是不得了的哦,一……一位智者讲给男人的终极智慧【转载】一位智者讲给男人的终极智慧这其中有一条最隐秘最诡异的法则,如果你不知道,就算你赢了全世界,最后也能在无形中让你万劫不复,而这些最有资格也最值得你信任的,就是智者要……老人经常搓脸的好处许多人都会感觉到,在疲劳时搓一搓脸,不仅面部舒服,而且眼睛也明亮些,有一种神清气爽的惬意。其实,搓脸的好处不仅仅舒展面神经和表情肌,更重要的是可防止面神经炎、视力减退和肩周炎。……父母的皮肤纹理会遗传吗过去有一种观手相,言祸福的江湖人,他们与算命瞎子一样,都是利用人们的迷信心理,信口雌黄,骗人钱财。但遗传学有一门专门研究皮肤纹理(简称皮纹)的分支学科,叫皮肤纹理学,却不可与观……爬虫玩的好监狱进的早爬虫玩的好,监狱进的早将不能被爬取的网站明码的列在了robots。txt中,这无异于是在挑衅、引起某些爬虫得不到的永远在骚动的强烈探知欲望。大公司因爬虫涉黑高管被带走调查……清平乐徽柔为什么叫苗心禾姐姐宋朝嫡母生母怎么叫很多人都发现,在古代,很多人的称呼和现代人的称呼是很不一样的,因为时代和语境的关系,同样的关系放在古代,他们之间的称呼和现代人是完全不一样的,比如赵徽柔作为苗心禾亲生的女儿,叫……天舞纪龙薇儿结局是什么龙薇儿身份揭秘其实在《天舞纪》小说中,龙薇儿这个角色还挺重要的,不过第二部后她的戏份就逐渐减少了。剧版里,对龙薇儿的设定似乎进行了一些改动,特别是她的感情线,将龙薇儿喜欢的人从谢云石改成了李……
韩式卷发发型图片带你玩转最韩范美迪奥试色元气少女必备左撇子更易现心理问题幼儿园教师的岗位职责是什么有哪些工作内容汪国真背影汪国真原文及赏析周内拿到的手淘搜索流量致富网小投资项目快速致富小项目千元投资项目小红书如何引流推广你学会了吗牙膏可以祛痘吗用什么洗面奶好水浒传白话文第二章大闹少华山死死死死死死死死死死叶飞简历资料叶飞的后代子女叶飞的故居在哪里
小人国的好朋友初中作文成熟有韵味的陌陌网名茉莉花茶的功效与作用茉莉花茶的副作用厨房进蚂蚁怎么解决厨房进蚂蚁如何解决一个国家只能有一支球队参加世界杯吗?开发创新CART细胞疗法,艺妙神州完成1。4亿人民币C轮融资前三季度中国GDP约合13。17万亿美元,全年或突破18万亿银行担保书范文内容是什么?老年人喝红茶可防帕金森病吗新生儿腹泻的处理方法辣评高考作文错一字扣一分是舍本逐末之举翅膀与风雨中考满分作文

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州