我国版权立法中文本数据挖掘侵权例外规则的构建——兼论中国知网论文查重争议

2023-02-21 11:06:22 浏览量:1333 中国版权保护中心

摘要:以计算机软件和大数据为支撑的文本数据挖掘技术已成为数字时代各行各业智能化发展的基础工具。文本数据挖掘首先需要收集、复制海量数据或作品等受《著作权法》保护的信息建立数据库。为学术研究目的而复制他人作品进行文本数据挖掘,在越来越多的法域被视为合理使用。我国版权立法中应尽快确立以论文查重为代表的文本数据挖掘合理使用规则,以消除学术领域新技术应用的侵权风险。具体来说,可以在《著作权法》配套法规中明确,为教育和科研目的可以复制他人作品,但不得公开发行和传播。

在知识和信息大爆炸的数字时代,仅由人脑对知识和数据信息进行搜寻、整理、学习、记忆、统计、分析、处理和应用越来越困难,同时知识和信息也无时无刻不以数据形式产生和存储。因此,不仅产业升级转型离不开人工智能技术和大数据资源的利用,传统社会中的很多学习、研究、管理和组织活动也需要技术辅助判断、预测和决策。数字技术的开发和运用成为人们适应时代剧变的必然选择,其中,利用计算机软件技术对海量作品、数据等内容进行统计和分析,得出有用信息的文本数据挖掘(Text & Date Mining,以下简称TDM),已成为智能社会推动产业和科技文化发展的基础工具。

 

 

 

一、文本数据挖掘的复合功能及其版权侵权风险

 

TDM是数据库的伴生物,在信息时代具有多重应用价值,其本质是利用人工智能算法调取存储于数据库中的文本或各种智能设备产生的数据,通过比对或重组信息资源发现其隐含的模型、趋势或与某一设定目标的相关性。精心设计的TDM不但具有广泛的商业用途,也同样为非营利单位和人员节省了大量搜集、存储、统计、分析资料的时间,极大地提高科学研究和管理决策的效率。

 

(一)依托数据库开发的TDM应用具有商业性

 

基于数据库建设、采用“知识付费”模式提供信息服务的TDM显然具有商业用途,典型应用场景包括辅助开发新技术、提炼商业信息、推送个性化娱乐资讯内容等。例如,生产经营者可以利用实时数据分析使智能家居等产品或智慧健康等服务更加灵敏和精准便捷,电商平台的商家可以通过搜集统计用户评价并据此有针对性地改善产品或服务,文娱资讯产业经营者也可通过历史记录预测用户喜好、推送关联信息内容或直接提供AI定制文创产品。对于建立此类数据库和开发TDM应用的主体来说,为营利目的大量复制他人受《著作权法》保护的作品等内容,应遵循传统的授权许可模式。1

 

21世纪以来,围绕“数字图书馆”复制使用受保护作品是否需要事先授权的问题,在我国互联网产业界与原创内容产业界争论激烈,主要原因就在于这类“数字图书馆”中的相当一部分事实上属于有偿数据信息服务的提供者,而并非公益性图书馆等公共文化服务机构,2而且其提供的信息是被复制的作品等内容本身。因此,我国的版权立法一直都未明确与商业数据库及其利用相关的权利限制与例外规则。换言之,商业数据库经营者将受保护的作品等内容数字化并纳入在线数据库向用户提供阅览、欣赏和下载时,应事先获得权利人的授权。已有司法实践表明,凡是以“数字图书馆”为名、未经许可扫描他人作品并提供在线使用的行为,均被判定为侵权。当然,司法者也发现了“传统型图书馆的数字化与数字化的非传统型图书馆”二者在版权侵权与否及责任承担方面应当区别对待,遗憾的是立法上尚未给出可以灵活解释的规则。3

 

(二)依托数据库开发的TDM应用可以具有公益性

 

我国在版权立法传统上对合理使用制度,采取的是类似欧洲各国明确列举具体情形的方式,适用的主体是个人、政府、新闻单位、教学研究及图书馆等公共文化机构;且在这些非营利性目的合理使用的规定中,4均有严格的数量、范围和使用方式等限制。近年来,在线图书馆、网上展览馆、线上博物馆、智慧城市建设等新兴事物发展迅速,我国版权立法显然需要充分考虑到信息时代此类非营利性活动也离不开数据库建设和TDM应用的趋势。5TDM需要对大量数据、受保护作品等信息进行复制,而海量的作品信息及其庞杂来源使得数据库制作者(通常也是TDM技术开发者)需要逐一核查权利状态并支付高昂授权成本。本质上说,为TDM而复制并不是为了提供作品本身,非营利性使用对权利人的合法利益并不构成冲击。基于TDM在数字时代已成为开展学术活动必不可少的工具,有必要考察如何消除其TDM的版权侵权风险,以保障和推动教育科研公共事业的发展。

 

从域外经验看,欧盟2019年通过的单一数字市场版权及相关权指令,将非营利性科研、文化遗产机构为科学研究目的进行TDM而复制与提取合法获得的作品等资料的行为视为合理使用,权利人不得通过授权条款排除使用;其他主体如果基于教学目的而以数字和跨境方式使用作品等资料,只要采取适当措施确保这种利用仅限于机构内的学生或成员,并注明出处且权利人可以选择退出,也不视为侵权。6美国《版权法》第107条关于合理使用判定的“四要素”没有限定适用主体,在实践中则通过判例来解释规则。例如,谷歌公司在实施“谷歌图书计划”时扫描了海量图书,因未经许可的复制引发了侵权纠纷;在与作家协会多年的诉讼过程中,谷歌公司不断调整其庞大图书数据库的信息服务方式,最终法院判定其扫描作品到数据库中,但仅在网页搜索结果上显示片段内容以便研究人员为学术目的使用的TDM行为属于转化性合理使用。7沿袭欧洲大陆成文法传统的日本,在2018年修改《著作权法》时增加了确认“用于信息情报分析的复制”属于“非欣赏性”使用侵权例外的30-4(ii)等条款,但适用条件却相对宽泛,使用对象不限于合法获取的资料,使用方式也涵盖了商业目的。8

 

我国著作权领域因数据库及TDM应用相关规则不明,滞后于数字技术发展的现状,突出反映在近期中国知网(CNKI)引发的相关法律争议中。

 

 

 

二、中国知网论文查重系统近期引发的法律争议

 

(一)论文查重是学术管理的技术手段

 

我国很早就在教育、科技领域相关立法中明确了诚信原则,9且不断强化和细化相关规定,强调学风建设和惩治学术不端行为,10并陆续颁发了相关文件、指南。11学术管理方面,我国学位论文评审工作一直由教育部统筹负责,近期国家确定了由科技部、社科院分别统筹管理自然科学和社会科学的科研诚信建设。12为执行相关法律和政策,高校、研究机构等学术单位和教育科研诚信管理部门,在学位授予、期刊发表、报告提交、职称评定等各个环节均对学术成果进行检测和评价,以确保其创新性和原创性,实现相关立法及各种配套规范中强调的提高人才培养质量、加强学术道德建设的要求。

 

抄袭即剽窃,是一种照抄他人的作品或其实质性部分作为自己提交或发表的作品而侵害他人著作权的行为 13。在以学术成果是否合格为考核指标的教育和科研活动中,抄袭是公认的违背学术道德和科研诚信、应承担相应后果的行为。14实践中,鉴于已发表的论文等作品材料数量庞大,由评审专家人工判断是否抄袭或剽窃越来越难以执行,作为大多数学术机构审查学术不端的辅助技术手段,论文查重在我国应运而生。论文查重是利用计算机软件技术查询、检测、记录论文等学术成果与已经发表的论文等对比材料之间的重复率,据此判定该成果是否存在抄袭及其原创程度的一种方法。尽管算法的科学性、周延性有时会受到质疑,人工复核程序也不时启动,但智能化的论文查重系统几乎已成为所有学术机构和管理部门发现并制止学术不端行为的必备工具。

 

(二)中国知网是目前我国学界公认的权威论文查重系统

 

论文查重是个系统工程,既需要算法功能强大的计算机软件和相匹配的服务器、云计算平台等硬件环境,也需要全面收录报纸期刊、硕博学位论文及图书等已有成果建立的查重数据库。尽管国内外有诸多在线文献数据查重软件,在我国具有代表性和权威性的是中国知网查重系统,15这是因为论文查重离不开数据库,而数据库建设需要极大的投入,单个学术机构难以完成,因此转而通过购买专业数据库及其查重服务的方式。目前,中国知网收录的文献总量超过2亿篇,16是国内最大学术文献数据库,其查重系统也被各学术机构同时采用。因该查重系统仅对学术机构开放,个人需求只能通过电商平台购买机构账号使用权的违规方式实现,不但花钱而且可能花冤枉钱,可谓乱象丛生。17

 

中国知网是数字学术资源集成商,巨大的成本投入和经营规模决定了其采取市场化运作方式、通过知识产品和服务获利。我国的高校毕业生每年数量达近千万,另外还有大量教学科研人员的期刊发表、课题结项、图书出版等需要进行成果检测,应该说,论文查重服务市场需求巨大。问题在于,个人为避免科研诚信出现问题而自发产生的市场需求,与学术机构及国家教育科研诚信主管部门履行公共管理职能的需求怎么区分?近期中国知网相关争议反映出目前各界对这一问题的认识还需要进一步厘清。

 

(三)中国知网近期引起关注的著作权和垄断争议

 

作为商业主体,中国知网在数据库建设过程中为了避免版权侵权风险,尽量采取了事先取得授权的模式,但其海量学术资源中仍有很多著作权状况不清晰,因为中国知网是与高校和报刊杂志社签订合同,而不是与作者本人。实践中,学生办理毕业手续时须签字确认同意论文电子版被有关数据库收录,作者投稿时须默认期刊杂志上关于全文将被有关数据库收录的声明;但这种方式是否意味着中国知网可以根据与高校或期刊报社的合同获得单篇论文的数字化复制权和信息网络传播权许可,在理论上是存疑的。我国《民法典》第四百九十七、四百九十八条对格式条款及其解释原则做出了有利于被动接受一方的规定;司法实践中,法院也通常会据此做出有利于权利人的裁判。例如,在赵某馨一案中,法院认为,《著作权法》第三十三条第二款规定的报刊转载法定许可制度并不适用于网络环境,中国知网也未提交证据证明作者曾向刊文单位进行信息网络传播权授权,故不支持中国知网称涉案文章有合法来源的主张。18理论界多数观点也认为,中国知网在硕博学位论文和期刊论文两大文献来源方面均存在问题。19

 

除了版权侵权,有关中国知网的争议还包括被指涉嫌垄断。中国知网数据库开发时的最初定位是“国家知识基础设施”,即教育科研的基本工具,但因此类知识数据库及其查重应用供给单一,引起了中国知网对学生和科研单位收取高额费用、限制公众学术创新活动的垄断争议。20对此,2022年4月25日,国家市场监督管理总局表示正在依法开展相关工作。21

 

 

 

三、我国版权立法体系及合理使用制度的构造

 

从立法模式看,大多数国家的版权立法将具体的制度规范尽量纳入法律,条文规定比较详细,多则上千条(例如美国)、少则上百条(例如日本、巴西),大多为200条左右(例如欧洲各国、澳大利亚、新加坡、埃及等)。不过,我国的模式稍有不同,《著作权法》仅有67条(2020年11月11日修改之前是61条),条文篇幅明显简短、精炼。这是因为我国著作权法立法采取的是“基本法律 + 配套法规”的组合模式,即在《著作权法》中以条款指示“法律、行政法规规定的其他情形”“由国务院另行规定”的方式表述,涉及的更详细具体的规则、措施由配套法规和规章来构建。事实上,我国版权立法体系的全貌是“1+X”架构,即以《著作权法》为基干,再加上《著作权法实施条例》《计算机软件保护条例》《著作权集体管理条例》《信息网络传播权保护条例》等以及拟制定的“民间文学艺术作品保护条例”作为配套行政法规。

 

著作权限制与例外,学理上也称“合理使用”22,是各国《著作权法》上十分重要的利益平衡机制,也是我国《著作权法》第三次修订的主要关注点之一;2020年最终的立法文本在引入《伯尔尼公约》“三步检验法”表述23的同时,在旧法列举的12项具体情形之外,增加了“法律、行政法规规定的其他情形”的链接式规定。这意味着,若有应当视为合理使用的新情形出现,需要经由立法程序以法律、法规予以明确,而不是交由司法者个案判定。学界对此多有批评,因为此次修法在权利客体、权利内容、技术保护措施、侵权责任等都做了诸多应对数字时代发展的修改,强化了对权利人的保护,赋予了司法机关足够的法律解释空间;但在作为权利人和公众之间利益平衡机制的合理使用制度上,立法却没有建立起同样可以灵活适用的弹性裁量规则。这样,对于实践中已达成一定共识,国外也有相关立法或司法经验可借鉴的应视为合理使用情形,在我国须尽快通过法律、法规做出规定,以维系权利人与公共利益的平衡。从我国的立法程序规定和著作权领域的立法体系看,以《著作权法》配套法规对合理使用情形加以明确是最便捷有效的做法。以TDM侵权例外为例,可尽快将其纳入目前我国即将修订的《著作权法实施条例》。当然,同样是TDM合理使用,各国的立法例或判例不尽相同,这与国情差异相关;适应我国国情的TDM合理使用规则个案中如何适用,是司法实践中需要阐释的问题。

 

 

 

四、我国版权立法中数据挖掘侵权例外规则的构建

 

(一)仅限于为学术目的而复制

 

TDM本身是一种创新成果且有着越来越广泛的用途,但其算法的执行首先需要获取海量受保护资料,才能上传至云计算平台进行解析、加工和呈现、传输结果,这一过程如果未经许可使用他人作品,涉嫌侵犯复制、演绎、信息网络传播等权利;如果TDM运营者与数据库建设者不是同一主体或无关联,未经许可抓取他人数据库中的海量内容使用还涉嫌进行不正当竞争。鉴于TDM应用今后能为商业主体创造市场价值,例如,能够“作诗、作曲、作画”的人工智能软件或各种名目的“智能机器人”设备,开发目的是作为文化娱乐产品营销而并非学术活动,其使用大量受保护作品来产生AI生成物的行为就不应适用版权侵权例外;这种虽然没有直接提供他人作品内容,但仍利用了他人作品信息来营利的行为,权利人和使用人双方如何达成利益分享合意应交由市场解决,而不是以《著作权法》上平衡公共利益与权利人利益的合理使用制度来强制规范。易言之,TDM合理使用应仅限于非营利性的教育和科研领域,以保障数字时代的学术活动这一社会公共事业能够与时俱进地开展。除了查重,TDM在学术上的典型应用还包括各学科与人工智能的交融24 和“数字人文”新范式,25这种以TDM开展科研活动的趋势,需要以各种各样与之匹配的知识数据库为基础,合理使用制度能够消除其版权侵权风险,有助于推动教育科学研究。

 

(二)使用方式不延及被复制作品的后续传播

 

作为侵权例外,须明确TDM使用作品的具体方式。建议我国在修改《著作权法实施条例》时增设侵权例外条款,允许为学术目的而复制他人作品以便执行TDM时,需要明确所复制的作品只能用于执行TDM本身;如果用于后续的营利性活动,例如将数据库中的作品有偿提供全文浏览和下载,则属于需要另行获得权利人许可的复制发行和网络传播行为。在前述谷歌公司案中,图书搜索方式最终仅限于学术目的且公众只能免费浏览文献片段,这种“转化性使用”之所以被判定为合理使用,是因为其与纸书时代权利人普遍包容的读者在图书馆或书店的翻阅类似;若整本提供图书复制件,必然难以摆脱侵权责任。

 

(三)开发和执行TDM的主体不必须是学术机构

 

结合国情和域外经验,具体执行TDM主体和复制资料的来源可不作严格限制,但使用目的和方式需明确为教育科研等学术活动。例如,中国知网已建成我国最大的学术资源数据库,仅就论文查重这样的TDM应用而言,在版权立法上确立为教育科研目的执行TDM而复制他人作品属于合理使用后,学术主管部门和各学术机构可以继续使用中国知网查重系统;因该系统所需的数据库开发、算法准确和权威性的维护需要相当多的成本,各学术机构应向中国知网经营者支付一定的使用费以弥补,但支付标准应当像公共交通等基础设施一样,由主管部门给予指导并予以公布,而不是由中国知网自行定价。当然,这一使用费也可打包计算在学术机构购买中国知网数据库服务的费用中。对于教育和科研人员的需求而言,学术机构购买的查重服务已经涵盖为个人提供的免费检测的合理次数,因此超出之外应由个体按收费标准自己埋单。

 

综上,我国版权立法亟须设立TDM侵权例外以适应数字技术的发展,本文提出该例外制度的构建路径及具体规则如下:

 

1. 在《著作权法实施条例》修订中增加TDM例外的规定具体来说,可以在第X条中明确:“下列情形,属于著作权法第二十四条第(十三)项规定的‘其他情形’:……(X)为教育和科学研究目的,复制已经发表的作品并提取相关数据信息进行统计分析,但不得将复制的作品公开发行和传播……”

 

2. 实践中通过司法解释和个案判定TDM合理使用的适用条件:(1)不强调适用主体必须是非营利性教育科研和公共文化机构,商业主体为学术目的也可复制作品用于TDM,但仅就此收取合理的使用费。(2)权利人不得在作品授权合同中以格式条款或声明,或者采取技术措施等方式排除TDM合理使用,以免该制度沦为摆设。(3)明确为TDM合理使用而复制使用他人作品仅限于非营利性教育科研目的,不包括广义的开发新产品或方法的商业性研发活动。(4)使用方式仅限于复制作品以便提取信息进行统计分析,不得延伸到将复制的作品出版发行或通过各种方式公开传播。

 

(作者系中国社会科学院法学研究所研究员)

 

注释:

 

1.此类数据库也涉及个人信息和数据财产保护问题,本文对此不展开讨论。

2.参见郑成思:《图书馆、网络服务商、网络盗版与“利益平衡”——中国社科院七位学者维权实践的理论贡献》,载《社会科学管理与评论》,2005年第3期。

3.参见赵静:《从司法审判看我国数字图书馆建设中的著作权法律适用问题》,载《科技与法律》,2005年第3期。

4.参见我国《著作权法》第二十四条(六)(七)(八)项,《信息网络传播权保护条例》第六、七条。

5.当然,问题不仅存在于著作权领域,个人信息的使用同样需要建立相关规则。

6.See European Union:Directive(EU)2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC,Article 2,3,4.

7.See Authors Guild,Inc. v. Google Inc.,804 F.3d 202(2d Cir. 2015).

8.See Tatsuhiro Ueno:The Flexible Copyright Exception for“Non-Enjoyment”Purposes—Recent Amendment in Japan and Its Implication, GRUR International(《欧盟及国际知识产权法》杂志),Volume 70,Issue 2,February 2021,pp.145–152.

9.例如,《中华人民共和国学位条例》(1980年2月12日通过)第十七条;《中华人民共和国科技进步法》(1993年7月2日通过)第六十条;《中华人民共和国高等教育法》(1998年8月29日通过)第四十二条(2015年该法修改时专门明确了学术事项的范围,其中第四项即调查、认定学术不端行为)。

10.学术不端行为指违反公认的学术准则、违背学术诚信的行为,如剽窃、抄袭、侵占他人学术成果等,参见2016年9月1日起施行的教育部《高等学校预防与处理学术不端行为办法》第二条、第二十七条。

11.例如,1999年《关于科技工作者行为准则的若干意见》,2002年《关于加强学术道德建设的若干意见 》,2004年《高等学校哲学社会科学研究学术规范(试行)》。

12.参见2018年5月中共中央办公厅、国务院办公厅印发的《关于进一步加强科研诚信建设的若干意见》。

13.参见《中华人民共和国著作权法》(2020年11月11日修改)第五十二条:有下列侵权行为的,应当根据情况,承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任……(五)剽窃他人作品的……

14.例如,2012年6月12日教育部通过的《学位论文作假行为处理办法》。

15.CNKI学术不端文献检测系统网址:https://check.cnki.net/。

16.参见文竞择:《我国知网被起诉涉嫌垄断,杭州中院已立案调查》,

https://new.qq.com/omn/20220504/20220504A01YIT00.html,访问日期:2022年9月22日。

17.参见新京报:《为了通过查重,毕业生们要花多少钱》,https://www.bjnews.com.cn/detail/165400365014452.html,访问日期:2022年9月31日。

18.参见北京互联网法院(2021)京0491民初31522号民事判决书。

19.参见郭玉洁:《知网之网》,载《中国青年报》,2022年2月9日第7版。

20.参见孙晋、袁野:《学术数据库经营者不公平高价行为的规》,载《现代法学》,2019年第5期。

21.参见于琦:《深陷争议旋涡,知网是否涉嫌垄断?市场监管总局:正依法开展相关工作》,

http://finance.cnr.cn/2014jingji/yw/20220426/t20220426_525807143.shtml,访问日期:2022年10月25日。

22.参见吴汉东:《著作权合理使用制度研究》(第三版),中国人民大学出版社2013年版,第5页。

23.《著作权法》第二十四条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益……(十三)法律、行政法规规定的其他情形。”

24.See Yongjun Xu, et al., Artificial Intelligence: A Powerful Paradigm for Scientific Research, The Innovation 2-4 (2021), 100-179;https://www.cell.com/the-innovation/fulltext/S2666-6758(21)00104-1#relatedArticles.

25.参见王晓光、陈静:《数字人文打开文化新视野》,载《人民日报》,2020年2月25日第20版。


来源:中国版权服务

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处,如有侵权联系删除

上一篇:计算机软件著作权登记公告20230217期-多面兽企服

下一篇:计算机软件著作权登记公告20230221期-多面兽企服

关键词:文本数据挖掘,知识产权,计算机软件,论文查重,版权立法