爬取数据须遵规

发布一下 2022年02月10日 11:11 0 0

数据爬虫技术作为一种重要的数据采集手段，被广泛应用于互联网的诸多领域，也引发了越来越多的争议，例如与其相关的互联网企业之间不正当竞争甚至刑事犯罪问题，已然成为数据产业发展中亟待解决、法律实务中需要进一步厘清的焦点之一。

　　近日，上海市杨浦区检察院组织召开“数据爬虫的法律合规研讨会”，法律实务界人士、高校专家学者与企业代表围绕数据爬虫的概念和技术原理、行业自治规范、合法性边界和法律适用等主题开展了深入研讨。

　　数据爬虫的概念和技术原理

　　大数据时代，数据资源是互联网企业发展的重要基础。当下，数据爬虫是企业采集公开数据的常用技术手段之一。通过数据爬虫技术，可以实现对文本、图片、音频、视频等互联网信息的海量抓取。那么，数据爬虫到底是什么，其技术原理又是什么？

　　对此，上海市杨浦区检察院检察官邵旻认为，爬虫是一种自动化浏览网络程序，其按照设置的规则通过模拟人工点击来自动抓取互联网数据和信息，从而自动、高效地读取或收集互联网数据。该技术运行的基本原理是根据搜索目的建立待爬行的URL（统一资源定位器）队列，从中取出URL，访问该URL对应的页面，并进行页面解析，提取此页面上所有的URL并存入待爬行队列中。如此循环爬行，直到URL队列中的所有URL爬行完毕或满足系统的一定停止条件为止。

　　欧莱雅中国区数字化负责人刘煜晨表示，从技术角度观察，数据爬虫就是用程序模拟人类通过浏览器（或者App）上网，高效地去网上抓取其所需要的数据信息的过程。爬虫可以抓取所有数据，也可以按条件抓取所需要的数据。

　　当然，数据爬虫技术运用不当也会产生不良影响，小红书总法律顾问曾翔分析认为，爬虫技术应用不当既可能侵犯个人和平台权利，也可能破坏互联网公共管理秩序，进而导致社会资源浪费。

　　数据爬虫技术应用的行业自治规范

　　邵旻认为，网站通常会采取适当措施，如运用Robots协议、爬虫检测、加固Web站点、设置验证码等限制爬虫的访问权限，以防止爬虫对数据进行过度抓取。其中，Robots协议由于简单高效，成为国内外互联网行业普遍通行、遵守的技术规范。Robots协议主要是限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站，仅允许数据爬取方在协议范围内爬取数据。

　　华东政法大学教授高富平认为，Robots协议是在搜索引擎诞生并且发展壮大的背景下应运而生的，它是互联网企业间相互博弈的结果，是最终在商业利益、用户个人利益和网站自身安全的基础上达成的一种妥协。其主要是起到一种排除作用，当某些网站不愿意其数据被搜索引擎所抓取时，这些网络机器人就会自动排除这些不愿意被抓取的内容。对于Robots协议约定不能爬取的范围是爬虫的红线，不能超过这个红线边界爬取数据。

　　数据爬虫的合法性边界和法律适用

　　高富平认为，爬虫是支撑数据经济的一种手段，在这样的前提下，判断爬虫合法性边界可以参考以下因素：一是数据是否属于开放数据。数据是否公开不是合法性判断的标准，是否为开放数据才是，公开数据不必然等同于开放数据；二是取得数据的手段是否合法。爬虫采用的技术是否突破数据访问控制，法律上是否突破网站或App的Robots协议；三是使用目的是否合法。如果爬虫的目的是实质性替代被爬虫经营者提供的部分产品内容或服务，则会被认为目的不合法；四是是否造成损害。爬虫是否实质上妨碍被爬虫经营者的正常经营，是否不合理增加运营成本，是否破坏系统正常运行。对于超越合法边界的数据爬虫，从民事法律规制角度，可以区分四种情形：首先，对于公开数据的爬取行为。如果数据权利方在Robots协议或网页中告知了可以爬取的范围以及其他应遵守的义务，爬取方没有遵守义务，应当承担相应民事责任。其次，对于突破网站或App的反爬虫技术设置的行为。爬虫从技术上突破数据访问控制，如突破网站或App的Robots协议以及设置的爬虫检测、加固Web站点等限制爬虫的访问权限，可能违法，要承担相应的民事责任。再次，对于数据使用目的不正当的行为。对于爬取到的数据，如果使用目的是实质性替代被爬虫经营者提供的部分产品内容或服务，属于侵犯权利方合法权益的行为，应当承担相应民事责任。最后，对于给权利人造成损害的行为。如果因为爬虫行为实质上妨碍权利人的正常经营，不合理增加权利人运营成本，破坏网络系统正常运行，给权利人造成损失的，权利人可以向爬虫行为人提起侵权之诉。

　　邵旻建议，从三个方面划定数据爬虫技术合法使用的边界：一是合法的网络数据爬取应限于对开放数据的获取。如果网络爬虫获取非开放的数据，便涉嫌违法甚至犯罪；二是合法使用的数据爬虫技术不应具有侵入性，可以说，爬虫的侵入性是其违法性的主要体现；三是数据爬取应当基于正当目的，对开放数据的获取可能因不符合正当目的而具有违法性。对开放的非商业性数据的爬取应当要求符合公共利益之根本目的。对开放的商业性数据的爬取则可借鉴版权法上的合理使用原则，要求基于合理利用目的。着眼刑事法律角度规制数据爬虫，可以从爬虫行为和数据使用两方面入手：其一，明知没有授权而故意避开或强行突破网站或App的反爬虫技术设置进行的爬取行为，属于“未经授权”访问或获取数据，行为人应依法承担相应责任包括刑事责任。根据我国刑法规定，突破技术屏障入侵他人计算机系统、获取系统内的数据，可能涉及的罪名包括非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪。此外，如果利用爬虫技术非法获取公民个人信息，可能触犯侵犯公民个人信息罪。其二，对于使用爬取的数据实施的犯罪行为，刑法也予以特别规制。如对获取的信息数据加以传播、利用或改造，有可能涉及传播淫秽物品罪、侵犯商业秘密罪、侵犯著作权罪等。

　　（作者单位：上海市杨浦区人民检察院）

来源：检察日报

本文地址：http://0561fc.cn/61972.html