“你的AI侵犯了我的版權(quán)”:淺談AIGC背后的版權(quán)保護(hù)問(wèn)題

朱開(kāi)鑫、張藝群
AIGC技術(shù)開(kāi)發(fā)與應(yīng)用中的知識(shí)產(chǎn)權(quán)尤其是版權(quán)侵權(quán)問(wèn)題之所以受到高度關(guān)注,其根源在于AIGC模型的形成和完善依賴于大量的數(shù)據(jù)訓(xùn)練,而用于訓(xùn)練的數(shù)據(jù)往往包含受版權(quán)法保護(hù)的內(nèi)容。

360截圖16251112669372.png

本文來(lái)自微信公眾號(hào)“騰訊研究院”,作者/朱開(kāi)鑫,騰訊研究院高級(jí)研究員、張藝群,騰訊研究院助理研究員。

ChatGPT的大火,帶來(lái)了AIGC技術(shù)及相關(guān)應(yīng)用的“強(qiáng)勢(shì)出圈”。除了感慨AI超強(qiáng)的內(nèi)容生成輸出能力之外,各界也開(kāi)始思考AIGC可能產(chǎn)生的潛在風(fēng)險(xiǎn)。2023年1月23日,美國(guó)三名漫畫藝術(shù)家針對(duì)包括Stability AI在內(nèi)的三家AIGC商業(yè)應(yīng)用公司,在加州北區(qū)法院發(fā)起集體訴訟,指控Stability AI研發(fā)的Stable Diffusion模型以及三名被告各自推出的、基于上述模型開(kāi)發(fā)的付費(fèi)AI圖像生成工具構(gòu)成版權(quán)侵權(quán)。

無(wú)獨(dú)有偶,2月15日《華爾街日?qǐng)?bào)》記者弗朗西斯科·馬可尼(Francesco Marconi)也公開(kāi)指責(zé),Open AI公司未經(jīng)授權(quán)大量使用路透社、紐約時(shí)報(bào)、衛(wèi)報(bào)、BBC等國(guó)外主流媒體的文章訓(xùn)練Chat GPT模型,但從未支付任何費(fèi)用。[1]

AIGC技術(shù)開(kāi)發(fā)與應(yīng)用中的知識(shí)產(chǎn)權(quán)尤其是版權(quán)侵權(quán)問(wèn)題之所以受到高度關(guān)注,其根源在于AIGC模型的形成和完善依賴于大量的數(shù)據(jù)訓(xùn)練,而用于訓(xùn)練的數(shù)據(jù)往往包含受版權(quán)法保護(hù)的內(nèi)容。

AIGC是如何利用版權(quán)作品進(jìn)行數(shù)據(jù)訓(xùn)練與輸出成果的?這一過(guò)程存在哪些版權(quán)侵權(quán)風(fēng)險(xiǎn)?應(yīng)當(dāng)如何有效應(yīng)對(duì)AIGC版權(quán)利用帶來(lái)的侵權(quán)風(fēng)險(xiǎn)?本文以“Stable Diffusion案”為引,結(jié)合AIGC內(nèi)容生產(chǎn)模式的技術(shù)原理,對(duì)上述問(wèn)題進(jìn)行探討。

360截圖16251112669372.png

(左圖:畫家Erin Hanson在2021年創(chuàng)作的作品;右圖:在Stable Diffusion中以“style of Erin Hanson”等作為提示生成的結(jié)果)[2]

全球首例:“Stable Diffusion”

AIGC模型版權(quán)侵權(quán)案

作為全球首例知名的AIGC商業(yè)化應(yīng)用領(lǐng)域,算法模型及訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)案,“Stable Diffusion案”自起訴書(shū)公布伊始便引起了各界關(guān)注與探討,其最終判決結(jié)果亦將對(duì)AIGC產(chǎn)業(yè)和技術(shù)發(fā)展產(chǎn)生舉足輕重的影響?;貧w到案件本身,我們發(fā)現(xiàn):其一,從核心爭(zhēng)議來(lái)看,當(dāng)前國(guó)內(nèi)外對(duì)于AIGC獲取與利用版權(quán)作品進(jìn)行算法訓(xùn)練是否合法存在諸多爭(zhēng)議,尚無(wú)立法和司法層面的明確共識(shí);其二,從涉案技術(shù)原理而言,Stable Diffusion模型訓(xùn)練過(guò)程中利用版權(quán)作品的方式、利用行為的版權(quán)定性仍有待分析明確。

在本案中,原告圍繞Stability AI公司未經(jīng)權(quán)利人許可,獲取與利用其版權(quán)作品作為Stable Diffusion的“訓(xùn)練圖像”展開(kāi)指控。原告將Stable Diffusion模型定性為“一個(gè)復(fù)雜的拼貼工具”(a complex collage tool)——“將無(wú)數(shù)受版權(quán)保護(hù)的圖像存儲(chǔ)和合并為訓(xùn)練圖像后……生成完全基于訓(xùn)練圖像的‘新’圖像”。被告“從使用受版權(quán)保護(hù)的圖像中獲得商業(yè)利益和豐厚利潤(rùn)”,而數(shù)百萬(wàn)權(quán)利人則因生成的“新”圖像對(duì)原作品交易市場(chǎng)的擠占而遭受損失。[3]

技術(shù)原理:AIGC模型涉及

哪些作品利用行為?

表面看,不同AIGC模型生成的內(nèi)容形式各異,涵蓋文字、圖像、語(yǔ)音、視頻等。但各類AIGC模型利用現(xiàn)有作品進(jìn)行模型訓(xùn)練、生成最終結(jié)果的方式卻存在異曲同工之處:將數(shù)據(jù)庫(kù)中的作品數(shù)據(jù)進(jìn)行一定程度的形式轉(zhuǎn)換后輸入AIGC模型,利用AIGC模型自主學(xué)習(xí)能力從中提取有價(jià)值的內(nèi)容,再根據(jù)輸入的指令生成與之相匹配的學(xué)習(xí)結(jié)果加以輸出。以此次陷入糾紛的Stable Diffusion模型為例,其以包含數(shù)以億計(jì)的圖像數(shù)據(jù)庫(kù)——LAION-5B[4]作為訓(xùn)練數(shù)據(jù)來(lái)源,原告主張的被侵權(quán)作品亦包含于內(nèi)。

簡(jiǎn)單來(lái)講,Stable Diffusion模型對(duì)版權(quán)作品的利用存在于兩個(gè)階段。第一,AI模型訓(xùn)練階段。Stable Diffusion利用版權(quán)作品訓(xùn)練內(nèi)部組件“圖像編碼器”(U-Net模型),輔之以“Clip文本編碼器”(Text Encoder模型),最終做到只需輸入一段描述性文字,即可生成對(duì)應(yīng)的圖像內(nèi)容。第二,AI模型應(yīng)用階段。Stable Diffusion經(jīng)過(guò)充分訓(xùn)練后,可以依據(jù)用戶給出的文本輸出最終圖像。但這些生成的圖像內(nèi)容,很大的概率包含并展現(xiàn)出作為訓(xùn)練數(shù)據(jù)的版權(quán)作品的元素及特征。

360截圖16251112669372.png

(Stable Diffusion內(nèi)部結(jié)構(gòu)圖)[5]

AIGC模型訓(xùn)練階段存在哪些

版權(quán)侵權(quán)風(fēng)險(xiǎn)?

在模型訓(xùn)練階段,Stable Diffusion會(huì)將版權(quán)作品和與之對(duì)應(yīng)的文本數(shù)據(jù)轉(zhuǎn)換為同一個(gè)“圖像信息空間”(latent space)的“潛在表現(xiàn)形式”(Latent Representations)。具言之,Stable Diffusion模型以從數(shù)據(jù)庫(kù)中下載的作品作為輸入對(duì)象,對(duì)其添加噪點(diǎn)并進(jìn)行編碼(壓縮),使作品進(jìn)入“圖像信息空間”。進(jìn)入這個(gè)空間的版權(quán)作品,會(huì)與被“Clip文本編碼器”編碼的描述性文本進(jìn)行“交互”,得到兩者信息融合的結(jié)果——“潛在表現(xiàn)形式”。

簡(jiǎn)單解釋,之所以Stable Diffusion模型訓(xùn)練涉及增加噪點(diǎn)和去噪點(diǎn)的過(guò)程,是因?yàn)椋翰煌谌祟愖鳟嫷钠瘘c(diǎn)是“從無(wú)到有”,即在白紙上開(kāi)始增加線條顏色等,最終形成圖像;Stable Diffusion模型作畫是“從有到無(wú)”,即從布滿雜亂噪點(diǎn)的底板(類似于九十年代電視的“雪花屏”),不斷去掉無(wú)關(guān)的噪點(diǎn),直至保留最終目標(biāo)圖像的過(guò)程。

360截圖16251112669372.png

若將訓(xùn)練前數(shù)據(jù)準(zhǔn)備過(guò)程,也囊括至模型訓(xùn)練階段。則Stable Diffusion模型對(duì)版權(quán)作品的主要利用行為系“復(fù)制”與“改編”。相關(guān)行為主要體現(xiàn)于兩個(gè)步驟中。

其一,是準(zhǔn)備訓(xùn)練數(shù)據(jù)過(guò)程中的復(fù)制。由于LAION-5B數(shù)據(jù)庫(kù)本身并不提供版權(quán)作品副本而僅提供版權(quán)作品在線URL列表的索引,因此在訓(xùn)練Stable Diffusion模型前,需要先將作為訓(xùn)練數(shù)據(jù)的作品從相應(yīng)網(wǎng)絡(luò)地址下載并存儲(chǔ),以形成版權(quán)作品的副本。

其二,是對(duì)作品進(jìn)行編碼后,將其輸入至“圖像信息空間”的改編。較之于對(duì)作品的直接下載與存儲(chǔ),過(guò)程對(duì)作品進(jìn)行了噪聲添加與編碼(壓縮),未在“圖像信息空間”“無(wú)差還原”原始版權(quán)作品,但其仍保留了作品內(nèi)容中最關(guān)鍵、本質(zhì)的特征,應(yīng)當(dāng)認(rèn)定為版權(quán)法意義上的改編。

AIGC模型輸出階段存在哪些版權(quán)侵權(quán)風(fēng)險(xiǎn)?

在內(nèi)容輸出階段,通過(guò)Stable Diffusion模型生成最終圖像,首先需要先通過(guò)“Clip文本編碼器”將用戶輸入的文本對(duì)應(yīng)至“圖像信息空間”的“潛在表現(xiàn)形式”。其次,由經(jīng)過(guò)噪聲輸出訓(xùn)練的“U-Net模塊”,對(duì)該潛在表現(xiàn)形式中添加的噪聲進(jìn)行預(yù)測(cè)。再次,對(duì)該文本的潛在表現(xiàn)形式減去“U-Net模塊”所預(yù)測(cè)的噪聲,根據(jù)用戶的設(shè)定進(jìn)行若干次“去噪”,最終得到新的圖像內(nèi)容。

這一階段,對(duì)原版權(quán)作品的利用需結(jié)合最終生成內(nèi)容判斷。若去噪與解碼后生成的內(nèi)容,與原作品在表達(dá)上構(gòu)成“實(shí)質(zhì)性相似”,則落入“復(fù)制權(quán)”的規(guī)制范圍;若不構(gòu)成“實(shí)質(zhì)性相似”,而是在保留作品基礎(chǔ)表達(dá)的前提下形成了新的表達(dá),則可能構(gòu)成對(duì)原作品“改編權(quán)”的侵害。

在將討論對(duì)象放寬至整體意義上的AIGC模型,谷歌公司的研究人員Kevin P.Murphy指出:機(jī)器學(xué)習(xí)模型有時(shí)會(huì)重建輸入數(shù)據(jù)的特性,而不是反映這些數(shù)據(jù)的潛在趨勢(shì)。此類模型可以視為生成作品的概率模型,落入原作“復(fù)制品”或“衍生作品”的寬泛定義,存在侵犯“復(fù)制權(quán)”與“改編權(quán)”的風(fēng)險(xiǎn)。[6]

此外,依據(jù)Stable Diffusion官方網(wǎng)站的聲明,Stable Diffusion生成的新內(nèi)容會(huì)以“CC0 1.0通用協(xié)議”的方式呈現(xiàn)于互聯(lián)網(wǎng)環(huán)境中,“完全開(kāi)源”。[7]從版權(quán)法來(lái)看,根據(jù)上述傳播生成內(nèi)容的方式是交互式或非交互式,即是否能使公眾在自行選定的時(shí)間和地點(diǎn)獲取,還可能分別落入“信息網(wǎng)絡(luò)傳播權(quán)”與“廣播權(quán)”(網(wǎng)絡(luò)直播)的規(guī)制范疇。

360截圖16251112669372.png

AIGC版權(quán)侵權(quán)是小概率事件?

有觀點(diǎn)認(rèn)為,AIGC輸出內(nèi)容侵犯版權(quán)是極小概率的事件,因?yàn)樵跀?shù)以億計(jì)的訓(xùn)練數(shù)據(jù)前擔(dān)憂生成結(jié)果與某一張或某幾張作品相似,似乎過(guò)于“杞人憂天”。如英國(guó)薩塞克斯大學(xué)的Andrés Guadamuz教授便指出,“經(jīng)過(guò)訓(xùn)練的機(jī)器模型,最終通常會(huì)產(chǎn)生與原始圖像不同的新圖像”。[8]

然而,在最新一項(xiàng)以Stable Diffusion等AI擴(kuò)散生成模型為研究對(duì)象的實(shí)驗(yàn)中,馬里蘭大學(xué)和紐約大學(xué)的聯(lián)合研究團(tuán)隊(duì)指出:利用Stable Diffusion模型生成的內(nèi)容與數(shù)據(jù)集作品相似度超過(guò)50%的可能性達(dá)到了1.88%,鑒于龐大的用戶使用量,令人無(wú)法忽略這其中侵權(quán)問(wèn)題的存在。

研究人員表示,由于該項(xiàng)實(shí)驗(yàn)中對(duì)復(fù)制(版權(quán)作品)的檢索,僅涵蓋訓(xùn)練數(shù)據(jù)集中的1200萬(wàn)張圖像(占訓(xùn)練數(shù)據(jù)集整體很小一部分),再加之有較大概率存在檢索方法無(wú)法識(shí)別的復(fù)制內(nèi)容等因素,該實(shí)驗(yàn)的結(jié)果實(shí)際上會(huì)低估了Stable Diffusion的侵權(quán)復(fù)制量。[9]由此可見(jiàn),AIGC模型作品侵權(quán)風(fēng)險(xiǎn)不能為各界所忽視。

AIGC能否構(gòu)成“合理使用”免責(zé)?

在美國(guó),雖然在合理使用認(rèn)定標(biāo)準(zhǔn)上相較于其他國(guó)家更為靈活,更傾向于鼓勵(lì)作品二次利用,但AIGC模型對(duì)于訓(xùn)練數(shù)據(jù)中作品的使用也難謂完全合法。“Stable Diffusion案”后,很多美國(guó)學(xué)者和律師認(rèn)為,結(jié)合美國(guó)版權(quán)法上的“四要素分析法”[10],很難將AIGC對(duì)于作品的使用納入合理使用的范疇。

一方面,Stable Diffusion生成的絕大部分內(nèi)容并未在原作品的基礎(chǔ)上增加新的表達(dá)形式,產(chǎn)生區(qū)別于原作品的新功能或價(jià)值,不符合“轉(zhuǎn)換性使用”的要求。另一方面,在版權(quán)作品授權(quán)許可市場(chǎng)已經(jīng)十分成熟的背景下,AIGC生成的內(nèi)容很大程度上擠壓與替代了被利用作品的原有市場(chǎng)。

在我國(guó),現(xiàn)行《著作權(quán)法》關(guān)于合理使用的規(guī)定,能適用于AIGC數(shù)據(jù)訓(xùn)練的情形主要有三:“個(gè)人使用”“適當(dāng)引用”以及“科學(xué)研究”。[11]“個(gè)人使用”適用目的存在嚴(yán)格限制,而目前AIGC模型最終落腳于對(duì)不特定主體的商業(yè)性服務(wù),難以與之契合;“適當(dāng)引用”的適用前提“為介紹、評(píng)論說(shuō)明某一作品”或“說(shuō)明某一問(wèn)題”,AIGC模型商業(yè)化領(lǐng)域的應(yīng)用顯然難以歸于此類;“科學(xué)研究”對(duì)作品的利用限定在“學(xué)校課堂教學(xué)或者科學(xué)研究”,同時(shí)還強(qiáng)調(diào)僅能“少量復(fù)制”,AIGC模型大量復(fù)制與利用作品的現(xiàn)狀無(wú)法滿足該項(xiàng)要求。

傳統(tǒng)的作品“授權(quán)利用模式”是否適用?

國(guó)內(nèi)學(xué)者曾形象地將AIGC模型與海量訓(xùn)練數(shù)據(jù)的關(guān)系,比喻為“孩子”與“母乳”。[12]人工智能技術(shù)的發(fā)展與提升必須以體量龐大的數(shù)據(jù)供給為前提,而被提供的數(shù)據(jù)中不可避免地包括受版權(quán)保護(hù)的作品。若嚴(yán)格遵循現(xiàn)行《著作權(quán)法》,則人工智能合法獲取與利用作品的方式似乎僅剩傳統(tǒng)的“授權(quán)許可模式”。但對(duì)于AIGC內(nèi)容生產(chǎn)而言,既有的授權(quán)許可模式又存在天然的適用困境。

一方面,授權(quán)許可模式可能造成AIGC研發(fā)的“寒蟬效應(yīng)”。在面臨版權(quán)作品高昂的授權(quán)許可費(fèi)用時(shí),AIGC研發(fā)主體往往面臨兩種選擇:一是,放棄AIGC領(lǐng)域,進(jìn)而轉(zhuǎn)向其他行業(yè);二是,堅(jiān)守AIGC領(lǐng)域,但使用免費(fèi)數(shù)據(jù)進(jìn)行訓(xùn)練。然而,前者無(wú)疑阻礙了人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的趨勢(shì),與科技進(jìn)步規(guī)律相違背;后者則可能因訓(xùn)練數(shù)據(jù)的不足,而引發(fā)算法模型偏見(jiàn)等不良后果。

另一方面,授權(quán)許可模式在實(shí)操層面存在難以落地的問(wèn)題。AIGC模型所需的訓(xùn)練數(shù)據(jù)中包含的作品數(shù)量眾多、來(lái)源各異、權(quán)屬不同,若采用事先授權(quán)許可的方式則:首先,需要精準(zhǔn)地將受保護(hù)的作品從海量數(shù)據(jù)中進(jìn)行分離、提取;其次,再找到每一部版權(quán)作品對(duì)應(yīng)的權(quán)利人與之協(xié)商授權(quán),并支付價(jià)格不一的授權(quán)費(fèi)用。上述過(guò)程漫長(zhǎng)且復(fù)雜,很難落地執(zhí)行。

此外,AIGC數(shù)據(jù)訓(xùn)練對(duì)作品數(shù)量的需求遠(yuǎn)超出著作權(quán)集體管理組織所能調(diào)控與規(guī)制的范疇,集體管理組織制度同樣面臨適用的“失靈”。不可否認(rèn),當(dāng)前通過(guò)Stable Diffusion等AIGC模型生成的結(jié)果存在侵權(quán)風(fēng)險(xiǎn),但可以預(yù)想隨著AI算法的不斷改進(jìn)優(yōu)化與訓(xùn)練數(shù)據(jù)的倍數(shù)增長(zhǎng),單個(gè)版權(quán)作品在這一過(guò)程中的價(jià)值將被“沖淡”,生成結(jié)果的侵權(quán)概率也將隨之進(jìn)一步降低。

360截圖16280721588958(1).png

國(guó)內(nèi)思考:更加關(guān)注AI模型訓(xùn)練

中的版權(quán)問(wèn)題

雖然國(guó)內(nèi)目前尚未出現(xiàn)類似于“Chat GPT”和“Stable Diffusion”般的現(xiàn)象級(jí)應(yīng)用,但AIGC領(lǐng)域的侵權(quán)訴訟也已出現(xiàn)。關(guān)注度較高的兩個(gè)案件分別是2018年的“菲林訴百度案”和2019年的“騰訊訴盈訊案”。但上述案件涉及更多的是AIGC“小模型時(shí)代”,對(duì)于特定領(lǐng)域(法律、財(cái)經(jīng))內(nèi)容的生成和輸出,模型訓(xùn)練數(shù)據(jù)需求量仍較低。特定專業(yè)數(shù)據(jù)庫(kù)和公開(kāi)信息即可滿足,不完全等同于當(dāng)下AIGC“大模型時(shí)代”多類型、多領(lǐng)域海量數(shù)據(jù)的訓(xùn)練要求。

“菲林訴百度案”涉及,在享有合法授權(quán)的“科威先行數(shù)據(jù)庫(kù)”基礎(chǔ)上生成輸出的內(nèi)容;“騰訊訴盈訊案”涉及,在“股市歷史和實(shí)時(shí)數(shù)據(jù)”這類不受版權(quán)法保護(hù)的事實(shí)信息的基礎(chǔ)上生成和輸出的內(nèi)容。各界的關(guān)注點(diǎn),也多停留在AIGC輸出內(nèi)容“是否構(gòu)成作品”以及“權(quán)利歸屬何方”。但隨著國(guó)內(nèi)AIGC技術(shù)的應(yīng)用與發(fā)展,AIGC模型訓(xùn)練和構(gòu)建中的版權(quán)保護(hù)也需要保持重視。

國(guó)內(nèi)重點(diǎn)科技企業(yè)和科研機(jī)構(gòu)已經(jīng)在AIGC領(lǐng)域完成技術(shù)、產(chǎn)業(yè)布局。在全球超千億參數(shù)的大模型中,中國(guó)企業(yè)或機(jī)構(gòu)占1/3,比如過(guò)去幾年國(guó)內(nèi)相繼推出了百度文心大模型、騰訊混元大模型等。而我國(guó)發(fā)展人工智能具有的海量數(shù)據(jù)、豐富場(chǎng)景和用戶基礎(chǔ),正是未來(lái)AIGC“大模型時(shí)代”發(fā)展和競(jìng)爭(zhēng)的有力優(yōu)勢(shì)。

如何破局:AIGC內(nèi)容生產(chǎn)模式

的版權(quán)治理探索

思考(一):可否增加新的“合理使用”情形?

在規(guī)則層面,2018年日本《著作權(quán)法》修訂中增加了“靈活的權(quán)利限制條款”,為AIGC技術(shù)爬取與利用版權(quán)作品創(chuàng)造了條件。新條款規(guī)定,如果互聯(lián)網(wǎng)公司對(duì)作品的使用“不侵害著作權(quán)所有者利益”或者“對(duì)所有權(quán)的損害程度輕微”,則可不經(jīng)權(quán)利人許可而直接使用。歐盟則于2019年正式通過(guò)《單一數(shù)字市場(chǎng)版權(quán)指令》,創(chuàng)設(shè)文本與數(shù)據(jù)挖掘(TDM)的例外,支持?jǐn)?shù)據(jù)科學(xué)和人工智能的發(fā)展。但如果權(quán)利人以適當(dāng)?shù)姆绞矫鞔_保留對(duì)作品或其他客體的使用,則不適用該例外。

日本與歐盟在這一領(lǐng)域的做法,為當(dāng)前AIGC版權(quán)侵權(quán)治理提供了一個(gè)可供參考的路徑。整體來(lái)看,日本傾向于從結(jié)果出發(fā)具體認(rèn)定AIGC技術(shù)利用版權(quán)作品是否合法,最終還是需要落腳到具體個(gè)案的分析;而歐盟則主張保障版權(quán)人事前選擇權(quán)利以避免侵權(quán)的發(fā)生,強(qiáng)調(diào)數(shù)據(jù)的開(kāi)發(fā)利用不得侵害權(quán)利人的利益。

思考(二):可否搭建有效的“作品退出機(jī)制”?

在實(shí)操層面,據(jù)報(bào)道,Stability AI公司近期表示將修改《用戶協(xié)議》中“數(shù)據(jù)庫(kù)不得加入或退出”的規(guī)定,允許權(quán)利人從后續(xù)發(fā)布的Stable Diffusion 3.0的訓(xùn)練數(shù)據(jù)集中刪除自己的作品。版權(quán)人可在“Have I Been Trained”網(wǎng)站上找到自己的作品,選擇退出數(shù)據(jù)訓(xùn)練集。[13]具言之,在將版權(quán)作品納入AIGC模型訓(xùn)練數(shù)據(jù)庫(kù)前,給予版權(quán)人一定的期限,自由選擇是否從訓(xùn)練數(shù)據(jù)庫(kù)中將其版權(quán)作品刪除。若版權(quán)人在規(guī)定期限內(nèi)提出反對(duì)意見(jiàn),則應(yīng)當(dāng)尊重其意愿,刪除相關(guān)作品;若伴權(quán)人未提出反對(duì)意見(jiàn),則默認(rèn)允許作品用于數(shù)據(jù)訓(xùn)練。

需要指出的是,在將版權(quán)作品上傳至網(wǎng)絡(luò)空間時(shí)已做出明確禁止使用聲明的版權(quán)人同樣應(yīng)當(dāng)視為“提出反對(duì)意見(jiàn)”的主體。在退出機(jī)制的具體建構(gòu)上,應(yīng)當(dāng)盡可能保證版權(quán)人的知情權(quán)與選擇權(quán)。在AIGC模型訓(xùn)練前,要及時(shí)通過(guò)各類渠道發(fā)布其訓(xùn)練數(shù)據(jù)庫(kù)的搭建信息,并在技術(shù)上為版權(quán)人提供便利的作品查詢與檢索機(jī)制,保證有可靠的渠道了解到版權(quán)作品是否被納入至相關(guān)數(shù)據(jù)庫(kù)。

思考(三):可否優(yōu)化AIGC模型的版權(quán)保護(hù)機(jī)制?

在技術(shù)層面,優(yōu)化與完善模型設(shè)計(jì),也是AIGC避免版權(quán)侵權(quán)風(fēng)險(xiǎn)的重要途徑。來(lái)自倫敦瑪麗女王大學(xué)的研究團(tuán)隊(duì)指出,AIGC模型在創(chuàng)新能力方面存在固有的限制,無(wú)法以創(chuàng)造性的方式與訓(xùn)練數(shù)據(jù)保持差異。為了解決這些局限性,可通過(guò)對(duì)AIGC模型的優(yōu)化與重寫,使其主動(dòng)偏離訓(xùn)練數(shù)據(jù)。[14]此種“偏離”作用于生成結(jié)果上,能在一定程度上避免對(duì)原版權(quán)作品的侵權(quán)。

目前,鑒于AIGC生成內(nèi)容是否構(gòu)成版權(quán)法上的作品加以保護(hù),仍處于探討之中,未有定論。有必要通過(guò)外部檢測(cè)技術(shù)或者完善AIGC模型標(biāo)注機(jī)制,對(duì)AIGC內(nèi)容進(jìn)行打標(biāo),和自然人創(chuàng)作的內(nèi)容加以區(qū)分,防止后續(xù)可能涉及的版權(quán)法律風(fēng)險(xiǎn)及應(yīng)對(duì)處理。2023年2月1日,Open AI宣布推出名為“AI Text Classifier”的文本檢測(cè)器,來(lái)輔助辨別文本到底是人類撰寫還是AI生成。雖然目前這項(xiàng)技術(shù)的準(zhǔn)確度仍有待提升,但可以通過(guò)機(jī)器學(xué)習(xí)自動(dòng)優(yōu)化,代表著一種“技術(shù)自治”的發(fā)展方向。

參考資料來(lái)源:

[1]https://twitter.com/fpmarconi/status/1625867414410825728?cxt=HHwWgMC4_ZLznpAtAAAA.

[2]https://edition.cnn.com/2022/10/21/tech/artists-ai-images/index.html

[3]See UNITED STATES DISTRICT COURT NORTHERN DISTRICT OF CALIFORNIA SAN FRANCISCO DIVISION,Page3-4.

[4]需指出,LAION-5B數(shù)據(jù)庫(kù)并非直接提供圖像數(shù)據(jù),而僅提供圖像和對(duì)應(yīng)文本的在線URL列表的索引。為獲取圖像數(shù)據(jù)和文本間的對(duì)應(yīng)度,LAION-5B首先會(huì)下載圖像,但在數(shù)據(jù)訓(xùn)練完后會(huì)進(jìn)行刪除.

[5]Alammar,J:The Illustrated Stable Diffusion,https://jalammar.github.io/illustrated-stable-diffusion/.

[6]See KEVIN P.MURPHY,MACHINE LEARNING:A PROBABILISTIC PERSPECTIVE,2007,at 22,593.

[7]https://stablediffusionweb.com/:”Q:What is the copyright on images created through Stable Diffusion Online?A:Images created through Stable Diffusion Online are fully open source,explicitly falling under the CC0 1.0 Universal Public Domain Dedication.”2023年2月10日訪問(wèn).

[8]See Guadamuz A,Do androids dream of electric copyright?Comparative analysis of originality in artificial intelligence generated works,Intellectual Property Quarterly,2017,2:169-186.

[9]See Gowthami Somepalli,Vasu Singla,Micah Goldblum,Jonas Geiping,Tom Goldstein,Diffusion Art or Digital Forgery?Investigating Data Replication in Diffusion Models,https://arxiv.org/pdf/2212.03860.pdf,2023/2/16.

[10]See Copyright Law of the United States,Chapter 1:Section 107.即,第一,這種使用是否具有商業(yè)目的或是為了非營(yíng)利的教育目的;第二,受版權(quán)保護(hù)的作品的性質(zhì);第三,同整個(gè)有版權(quán)作品相比所使用的部分的數(shù)量和內(nèi)容的實(shí)質(zhì)性;第四,這種使用對(duì)有版權(quán)作品的潛在市場(chǎng)或價(jià)值所產(chǎn)生的影響.

[11]即《著作權(quán)法》第二十四條第一款之(一)(二)(六)項(xiàng)內(nèi)容.

[12]參見(jiàn)吳漢東:《人工智能生成作品的著作權(quán)法之問(wèn)》,《中外法學(xué)》2020年第3期.

[13]https://haveibeentrained.com/,2023年2月20日訪問(wèn).

[14]See Sebastian Berns&Simon Colton,Bridging Generative Deep Learning and Computational Creativity,https://computationalcreativity.net/iccc20/papers/164-iccc20.pdf,2023/2/20.

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論