正在閱讀:

用GitHub上的開源代碼訓練人工智能違法嗎?

掃一掃下載界面新聞APP

用GitHub上的開源代碼訓練人工智能違法嗎?

本案可以看出人工智能目前處于野蠻生長的狀態(tài),創(chuàng)業(yè)者只顧產品快速推出,但產品設計中忽視法律風險和更重要的產業(yè)生態(tài)保護。

圖片來源:視覺中國

文丨游云庭(上海大邦律師事務所高級合伙人,知識產權律師。)

近日,人工智能公司OpenAI在開發(fā)者大會上宣布:如果用戶因人工智能生成內容造成版權侵權被起訴索賠,其將向用戶提供版權保護盾:為客戶辯護并報銷過程中產生的費用。其實OpenAI這招是從微軟學來的。而微軟,則是因為用了開源軟件代碼訓練人工智能被起訴,迫不得已才想出版權保護盾的辦法。今天就來聊聊微軟被起訴這個訴訟,以及用開源代碼訓練人工智能到底有哪些法律風險。

筆者在網上找到了案件的起訴書、微軟的答辯意見和美國加利福尼亞北區(qū)法院的初步裁定,今天就根據(jù)相關內容介紹一下該案。美國是普通法系國家,法院的審判模式和我國有很大區(qū)別,所以我對判決書中的判例引用和制度也都不甚了解,只能挑自己看得懂的案件事實和部分說理做摘要。美國法律上的分析可以參考美國律師這篇文章。

OpenAI公司開發(fā)出一款名為Codex的人工智能生成工具。GitHub 推出了基于生成式人工智能的代碼自動完成工具 Copilot。Copilot是一款面向 GitHub用戶的訂閱工具,月費 10 美元,年費100美元。根據(jù)訴狀,Copilot需要Codex才能運行。2022年11月,兩名軟件開發(fā)者使用化名(為什么用化名起訴,因為有人通過原告律師對原告發(fā)出過死亡威脅)提起了假定的集體訴訟,被告為GitHub、微軟(作為GitHub的母公司)、OpenAI。原告聲稱Copilot和Codex作為人工智能工具,其訓練中使用了原告受版權保護的計算機代碼。

開源代碼的特點是都在開源許可證下發(fā)布的,既然是開放的,所以用開源代碼訓練人工智能也不能說必然侵權,但在GitHub上有11種開源許可證,每一種許可證都對使用開源代碼者有不同的要求,要求任何衍生作品或許可作品的副本都包含貢獻源代碼者的信息、版權聲明以及其他要求,比如GPL許可證下的代碼要求使用者開放其軟件中的全部源代碼。

但原告認為,當他們的代碼被用作訓練數(shù)據(jù)時,代碼附帶的開源許可證的版權管理信息(“CMI”Copyright Management Information)被刪除了。他們還認定Codex和Copilot生成的作品部分包含了他們受版權保護的代碼。原告的訴求包括一系列索賠,違反《數(shù)字千年版權法》(DMCA);違反 GitHub用戶協(xié)議;不公平競爭;隱私權侵權等。

但原告的起訴有一個證據(jù)瑕疵:無法證明Codex和Copilot生成的作品完全復制了原告的代碼。法院初步調查的結果是:發(fā)現(xiàn)了幾處 Copilot的輸出與 Github用戶編寫的授權代碼相匹配(matched)的情況,但這些情況都不涉及原告發(fā)布的代碼。也就是說,有初步證據(jù)證明人工智能輸出的內容用了Github上的代碼,但本案的原告不是代碼的作者,所以無權主張此行為侵權。

這些匹配的代碼證明原告訴訟事項并非沒有依據(jù),故法院在初步裁定書中認定:原告有理由聲稱,被告的計劃至少存在以下重大風險:將復制原告的許可代碼并進行輸出。首先,Codex和Copilot的數(shù)據(jù)訓練數(shù)據(jù)中包括所有公開的GitHub存儲庫。其次,程序會根據(jù)相關提示重現(xiàn)眾所周知的代碼,并提供幾個具體的此類復制的例子。最后,原告聲稱GitHub自己的內部研究顯示,Copilot“大約有1%的時間”從訓練數(shù)據(jù)中復制代碼。因此,原告聲稱的,“如果沒有禁令救濟,就會存在以下現(xiàn)實危險,Codex或Copilot將復制原告的許可代碼作為輸出”有一定道理。

原告還聲稱被告修改了Copilot,以確保它不再復制許可證文本、署名和版權聲明。法院認為,如果原告的代碼是被復制用于輸出,其復制方式將違反開源許可證的規(guī)定。雖然原告未能證明事實損害足以使其獲得部分訴訟資格,但法院還是認可他們有資格以財產權受到損害為由提出損害賠償,同時要求起訴8項禁令救濟。

雖然法院的初步裁定駁回了原告的很多訴請,比如隱私權,民事共謀和宣告性救濟(civil conspiracy and declaratory relief),但這個訴訟如果繼續(xù)推進,對被告方而言,其人工智能產品會始終處于被法院認定停止侵權的威脅之下,所以目前案件對誰更有利還不好說。

要厘清用開源代碼訓練人工智能是否侵權的問題,可以看訴狀里提到的下面幾個問題:

一、人工智能是怎么用開源代碼訓練及輸出的?

根據(jù)訴狀,原告認為人工智能的訓練是算法推演,而不是理解代碼后生成結果,至少在訴訟的答辯狀里,被告方對訓練過程、方法都沒有進行回應,只是說認為訓練屬于合理使用。

原告認為:Codex和Copilot不能理解代碼,與人工智能有關的“研究”、 “培訓”和“學習”等詞描述的是與人類推理不同的算法過程。也不能像人類那樣“理解”語義和上下文,人工智能模型無法像人類一樣“學習”,它能檢測其訓練數(shù)據(jù)中具有統(tǒng)計意義的模式,并提供從其訓練數(shù)據(jù)中得出的輸出結果,在統(tǒng)計適當?shù)那闆r下,對數(shù)據(jù)進行分析。這樣的“蠻力”方法既不高效,也不可靠。所以Codex和Copilot不能自己生成代碼,他們只是用算法推導出用戶想要什么,他們生成的結果是多個來源拼湊的。

可能Codex和Copilot這個產品是為了給程序員編程時服務,這個訓練的智能跟人類學習區(qū)別還是很大的,甚至和ChatGPT生成代碼的方式也是不同的。如果訴狀所稱屬實,因為輸出的內容都是現(xiàn)成的結果的拼湊,其侵權的可能性確實會比較大。

二、GitHub的用戶協(xié)議有沒有限制或禁止訓練行為?

所有上傳到GitHub的代碼均受GitHub用戶協(xié)議的約束,該協(xié)議條款規(guī)定用戶保留其上傳至GitHub的任何內容的所有權,但授予GitHub存儲權,對“內容”進行存檔、解析和顯示,并制作必要的附帶副本,以提供服務,包括不斷改進服務。

根據(jù)Github的用戶協(xié)議:這包括將代碼復制到我們的數(shù)據(jù)庫并進行備份等操作的權利;向您和其他用戶提供,將其解析為搜索索引或在我們的服務器上進行其他分析;與其他用戶共享。用戶協(xié)議還規(guī)定,用戶如果設置了GitHub將授予每位GitHub用戶非獨占的、全球范圍內的許可通過GitHub服務使用、展示和執(zhí)行。在GitHub功能允許的情況下,內容只能在GitHub上發(fā)布。

鑒于用戶協(xié)議中有代碼要“與其他用戶共享”的規(guī)定,所以,如果代碼是開源的,那拿來訓練應當也是共享的一種方式,符合用戶協(xié)議規(guī)定。

三、人工智能輸出的涉及開源代碼的內容是不是符合開源協(xié)議?

訴狀稱:盡管GitHub公共存儲庫中的大部分代碼都受到限制其使用的開源許可證的約束,但Codex和Copilot“并未進行編程設計,以將版權歸屬、版權聲明和許可條款視為法律上必需的”,Copilot訓練數(shù)據(jù)并復制作為輸出,但沒有復制版權歸屬信息、版權聲明和許可條款。這違反了“數(shù)萬(可能是數(shù)百萬)軟件開發(fā)人員”的開源許可證。

這里面有三個法律問題,首先是違法問題,根據(jù)美國的版權法律,未經版權所有者或法律授權,任何人不得刪除或更改版權管理信息。而本案中,代碼附帶的開源許可證的版權管理信息(“CMI”Copyright Management Information),在訓練時被刪除了。這里的版權管理信息的范圍要比我國《著作權法》規(guī)定的署名權要大,因為除了顯示作者或項目的名稱,開源協(xié)議可能還有其他要求,比如公開衍生代碼甚至項目的全部代碼。

其次是違約問題,GitHub上有十一種開源協(xié)議。每一種都對使用代碼,產生衍生代碼有明確的條件,并且復制或者以原有代碼衍生新的代碼都至少應當載明代碼來源,所屬的開源許可證,如果版權管理信息被刪除,人工智能的開發(fā)者就會違反開源協(xié)議。

還有人工智能使用者侵權的問題。由于版權管理信息被刪除,Codex和Copilot的使用者無法判斷人工智能生成的代碼是否屬于開源許可證項下的代碼,如果其使用了這些代碼,但沒有按照開源許可證的要求標明開源代碼來源以及其他要求,就會對開源代碼的作者構成侵權??赡苓@也是微軟和OpenAi會向其人工智能服務用戶提供版權保護盾的原因。

最后,本案可以看出人工智能目前處于野蠻生長的狀態(tài),創(chuàng)業(yè)者只顧產品快速推出,但產品設計中忽視法律風險和更重要的產業(yè)生態(tài)保護。開源軟件作為一個有幾十年歷史的龐大的產業(yè),標注版權管理信息和遵守開源許可證的規(guī)定是產業(yè)能夠正常運轉的核心,而新興的人工智能產業(yè)卻只是把開源社區(qū)的成果——開源代碼全部拿走,但完全不愿遵守法律和開源社區(qū)的規(guī)則。所以,我的判斷是,這種破壞生態(tài)式的創(chuàng)新應該不會得到法院的支持。

 

 

(文章僅代表作者觀點。責編郵箱:yanguihua@jiemian.com。)

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

用GitHub上的開源代碼訓練人工智能違法嗎?

本案可以看出人工智能目前處于野蠻生長的狀態(tài),創(chuàng)業(yè)者只顧產品快速推出,但產品設計中忽視法律風險和更重要的產業(yè)生態(tài)保護。

圖片來源:視覺中國

文丨游云庭(上海大邦律師事務所高級合伙人,知識產權律師。)

近日,人工智能公司OpenAI在開發(fā)者大會上宣布:如果用戶因人工智能生成內容造成版權侵權被起訴索賠,其將向用戶提供版權保護盾:為客戶辯護并報銷過程中產生的費用。其實OpenAI這招是從微軟學來的。而微軟,則是因為用了開源軟件代碼訓練人工智能被起訴,迫不得已才想出版權保護盾的辦法。今天就來聊聊微軟被起訴這個訴訟,以及用開源代碼訓練人工智能到底有哪些法律風險。

筆者在網上找到了案件的起訴書、微軟的答辯意見和美國加利福尼亞北區(qū)法院的初步裁定,今天就根據(jù)相關內容介紹一下該案。美國是普通法系國家,法院的審判模式和我國有很大區(qū)別,所以我對判決書中的判例引用和制度也都不甚了解,只能挑自己看得懂的案件事實和部分說理做摘要。美國法律上的分析可以參考美國律師這篇文章。

OpenAI公司開發(fā)出一款名為Codex的人工智能生成工具。GitHub 推出了基于生成式人工智能的代碼自動完成工具 Copilot。Copilot是一款面向 GitHub用戶的訂閱工具,月費 10 美元,年費100美元。根據(jù)訴狀,Copilot需要Codex才能運行。2022年11月,兩名軟件開發(fā)者使用化名(為什么用化名起訴,因為有人通過原告律師對原告發(fā)出過死亡威脅)提起了假定的集體訴訟,被告為GitHub、微軟(作為GitHub的母公司)、OpenAI。原告聲稱Copilot和Codex作為人工智能工具,其訓練中使用了原告受版權保護的計算機代碼。

開源代碼的特點是都在開源許可證下發(fā)布的,既然是開放的,所以用開源代碼訓練人工智能也不能說必然侵權,但在GitHub上有11種開源許可證,每一種許可證都對使用開源代碼者有不同的要求,要求任何衍生作品或許可作品的副本都包含貢獻源代碼者的信息、版權聲明以及其他要求,比如GPL許可證下的代碼要求使用者開放其軟件中的全部源代碼。

但原告認為,當他們的代碼被用作訓練數(shù)據(jù)時,代碼附帶的開源許可證的版權管理信息(“CMI”Copyright Management Information)被刪除了。他們還認定Codex和Copilot生成的作品部分包含了他們受版權保護的代碼。原告的訴求包括一系列索賠,違反《數(shù)字千年版權法》(DMCA);違反 GitHub用戶協(xié)議;不公平競爭;隱私權侵權等。

但原告的起訴有一個證據(jù)瑕疵:無法證明Codex和Copilot生成的作品完全復制了原告的代碼。法院初步調查的結果是:發(fā)現(xiàn)了幾處 Copilot的輸出與 Github用戶編寫的授權代碼相匹配(matched)的情況,但這些情況都不涉及原告發(fā)布的代碼。也就是說,有初步證據(jù)證明人工智能輸出的內容用了Github上的代碼,但本案的原告不是代碼的作者,所以無權主張此行為侵權。

這些匹配的代碼證明原告訴訟事項并非沒有依據(jù),故法院在初步裁定書中認定:原告有理由聲稱,被告的計劃至少存在以下重大風險:將復制原告的許可代碼并進行輸出。首先,Codex和Copilot的數(shù)據(jù)訓練數(shù)據(jù)中包括所有公開的GitHub存儲庫。其次,程序會根據(jù)相關提示重現(xiàn)眾所周知的代碼,并提供幾個具體的此類復制的例子。最后,原告聲稱GitHub自己的內部研究顯示,Copilot“大約有1%的時間”從訓練數(shù)據(jù)中復制代碼。因此,原告聲稱的,“如果沒有禁令救濟,就會存在以下現(xiàn)實危險,Codex或Copilot將復制原告的許可代碼作為輸出”有一定道理。

原告還聲稱被告修改了Copilot,以確保它不再復制許可證文本、署名和版權聲明。法院認為,如果原告的代碼是被復制用于輸出,其復制方式將違反開源許可證的規(guī)定。雖然原告未能證明事實損害足以使其獲得部分訴訟資格,但法院還是認可他們有資格以財產權受到損害為由提出損害賠償,同時要求起訴8項禁令救濟。

雖然法院的初步裁定駁回了原告的很多訴請,比如隱私權,民事共謀和宣告性救濟(civil conspiracy and declaratory relief),但這個訴訟如果繼續(xù)推進,對被告方而言,其人工智能產品會始終處于被法院認定停止侵權的威脅之下,所以目前案件對誰更有利還不好說。

要厘清用開源代碼訓練人工智能是否侵權的問題,可以看訴狀里提到的下面幾個問題:

一、人工智能是怎么用開源代碼訓練及輸出的?

根據(jù)訴狀,原告認為人工智能的訓練是算法推演,而不是理解代碼后生成結果,至少在訴訟的答辯狀里,被告方對訓練過程、方法都沒有進行回應,只是說認為訓練屬于合理使用。

原告認為:Codex和Copilot不能理解代碼,與人工智能有關的“研究”、 “培訓”和“學習”等詞描述的是與人類推理不同的算法過程。也不能像人類那樣“理解”語義和上下文,人工智能模型無法像人類一樣“學習”,它能檢測其訓練數(shù)據(jù)中具有統(tǒng)計意義的模式,并提供從其訓練數(shù)據(jù)中得出的輸出結果,在統(tǒng)計適當?shù)那闆r下,對數(shù)據(jù)進行分析。這樣的“蠻力”方法既不高效,也不可靠。所以Codex和Copilot不能自己生成代碼,他們只是用算法推導出用戶想要什么,他們生成的結果是多個來源拼湊的。

可能Codex和Copilot這個產品是為了給程序員編程時服務,這個訓練的智能跟人類學習區(qū)別還是很大的,甚至和ChatGPT生成代碼的方式也是不同的。如果訴狀所稱屬實,因為輸出的內容都是現(xiàn)成的結果的拼湊,其侵權的可能性確實會比較大。

二、GitHub的用戶協(xié)議有沒有限制或禁止訓練行為?

所有上傳到GitHub的代碼均受GitHub用戶協(xié)議的約束,該協(xié)議條款規(guī)定用戶保留其上傳至GitHub的任何內容的所有權,但授予GitHub存儲權,對“內容”進行存檔、解析和顯示,并制作必要的附帶副本,以提供服務,包括不斷改進服務。

根據(jù)Github的用戶協(xié)議:這包括將代碼復制到我們的數(shù)據(jù)庫并進行備份等操作的權利;向您和其他用戶提供,將其解析為搜索索引或在我們的服務器上進行其他分析;與其他用戶共享。用戶協(xié)議還規(guī)定,用戶如果設置了GitHub將授予每位GitHub用戶非獨占的、全球范圍內的許可通過GitHub服務使用、展示和執(zhí)行。在GitHub功能允許的情況下,內容只能在GitHub上發(fā)布。

鑒于用戶協(xié)議中有代碼要“與其他用戶共享”的規(guī)定,所以,如果代碼是開源的,那拿來訓練應當也是共享的一種方式,符合用戶協(xié)議規(guī)定。

三、人工智能輸出的涉及開源代碼的內容是不是符合開源協(xié)議?

訴狀稱:盡管GitHub公共存儲庫中的大部分代碼都受到限制其使用的開源許可證的約束,但Codex和Copilot“并未進行編程設計,以將版權歸屬、版權聲明和許可條款視為法律上必需的”,Copilot訓練數(shù)據(jù)并復制作為輸出,但沒有復制版權歸屬信息、版權聲明和許可條款。這違反了“數(shù)萬(可能是數(shù)百萬)軟件開發(fā)人員”的開源許可證。

這里面有三個法律問題,首先是違法問題,根據(jù)美國的版權法律,未經版權所有者或法律授權,任何人不得刪除或更改版權管理信息。而本案中,代碼附帶的開源許可證的版權管理信息(“CMI”Copyright Management Information),在訓練時被刪除了。這里的版權管理信息的范圍要比我國《著作權法》規(guī)定的署名權要大,因為除了顯示作者或項目的名稱,開源協(xié)議可能還有其他要求,比如公開衍生代碼甚至項目的全部代碼。

其次是違約問題,GitHub上有十一種開源協(xié)議。每一種都對使用代碼,產生衍生代碼有明確的條件,并且復制或者以原有代碼衍生新的代碼都至少應當載明代碼來源,所屬的開源許可證,如果版權管理信息被刪除,人工智能的開發(fā)者就會違反開源協(xié)議。

還有人工智能使用者侵權的問題。由于版權管理信息被刪除,Codex和Copilot的使用者無法判斷人工智能生成的代碼是否屬于開源許可證項下的代碼,如果其使用了這些代碼,但沒有按照開源許可證的要求標明開源代碼來源以及其他要求,就會對開源代碼的作者構成侵權??赡苓@也是微軟和OpenAi會向其人工智能服務用戶提供版權保護盾的原因。

最后,本案可以看出人工智能目前處于野蠻生長的狀態(tài),創(chuàng)業(yè)者只顧產品快速推出,但產品設計中忽視法律風險和更重要的產業(yè)生態(tài)保護。開源軟件作為一個有幾十年歷史的龐大的產業(yè),標注版權管理信息和遵守開源許可證的規(guī)定是產業(yè)能夠正常運轉的核心,而新興的人工智能產業(yè)卻只是把開源社區(qū)的成果——開源代碼全部拿走,但完全不愿遵守法律和開源社區(qū)的規(guī)則。所以,我的判斷是,這種破壞生態(tài)式的創(chuàng)新應該不會得到法院的支持。

 

 

(文章僅代表作者觀點。責編郵箱:yanguihua@jiemian.com。)

本文為轉載內容,授權事宜請聯(lián)系原著作權人。