台灣圖書內容應該對全世界開放 AI 訓練

2025-07-04  陳穎青(老貓) 

台灣著作權法經常對標美國標準,不管為己為人,都應該加速修改法條,更放大 AI 世界的台灣優勢,不要只剩下晶片(示意圖,Image via Shutterstsock.com)

 

自從大語言模型橫空出世以來,高品質的訓練語料便成為各國科技公司大顯神通的競爭標的,許多公司或明或暗,直接派出爬蟲機器人,穿過付費牆,攫取較高品質的訓練內容。因此引發的著作權爭議在世界各國也出現許多案例。

台灣經濟部在2023年就已經注意到這些問題,陸續也舉辦過 AI 相關的著作權研討會。但大部分學者專家仍然從傳統著作權的角度思考這個問題,而沒有從 AI 帶來的新局勢反省著作、內容,與台灣總體利益的關連。

作為訓練語料中最優秀的原材料,圖書內容所具備的價值(經過編輯審查、具有足夠可讀性、知識經過初步核實、錯字率經過特別程序校對、以繁中發行,且有相當講究的Mata Data文本識別標籤,如書名、作者、出版社、出版年、CIP分類、內容簡介、序文、目次等),應該不需要再強調。但我們還沒意識到台灣在戰後七十餘年來,所出版的正體圖書內容,在 AI 主宰的世界,具有更獨特的價值。

那就是台灣所出版的正體字內容,既代表台灣知識菁英的文字紀錄,也代表台灣七十年所累積的,基於政治自由化環境而誕生的文化基底(至少在1987年解嚴之後)。這是中文世界最無審查的自由心靈所累積的文字(不管其中有多麼分歧的意識形態),當我們在思考如何輸出台灣軟實力的時候,我們似乎只著重在戲劇、音樂、小說,而沒有考慮過台灣七十年累積的正體字內容,所形塑的自由心靈的多元性。

當我們在思考 AI 主權、 AI 國力的時候,我們只想著晶片、算力、耗電量等硬體,而沒有想過如何把台灣真正高品質的正體字內容,轉化為 AI 訓練的材料,不只給台灣的科技公司訓練,也應該乾脆直接打包,免費授權給國外的 AI 科技公司。

這些內容是台灣從戒嚴到解嚴,從保守到進步,從落後到現代,作為思想發表的自由平台,成為海內外所有嚮往自由的心靈,能夠發表其心靈、其思考、其智慧的集中地。

這些內容對世界展示了台灣的真價值,即一個保有正體字中文傳承,不仰賴「國家指導」,而展現出漢字文明能夠到達的文明高度,與世界先進文明比肩而不遜色。

台灣應該免費奉送我們累積七十餘年,總文字量超過五百億字的正體中文出版內容給全世界。就像傅斯年在台大校慶所說「貢獻這所大學于宇宙」的精神,我們也應該「貢獻台灣的文字結晶於宇宙」。

這不只是對世界文明的致敬,也是為 AI 的底層保留一點中文思考的自由火種。

輸出這些內容就等於輸出了台灣累積七十年的文化軟實力。而世界各大 AI 科技公司將會非常歡迎,樂於接受來自台灣的餽贈。

要完成這件事,需要幾個必不可少的步驟。

首先是著作權法應該參考日本在2018年就已經預見著作權法對 AI 訓練的影響,而「大幅提高AI在做機器學習時的資料利用便利性」(參:日本新修正著作權法鼓勵AI發展),應該把使用版權內容作為訓練內容,視為「合理使用」,而避免 AI 公司為了避免陷入著作權爭端而無法使用台灣所累積的重要內容的雙輸局面。

使用版權內容最為 AI 模型的訓練材料,在美國已經有判例視為合理使用(參:美國法官判決Anthropic以版權書籍來訓練AI模型屬於合理使用)。台灣著作權法經常對標美國標準,不管為己為人,都應該加速修改法條,更放大 AI 世界的台灣優勢,不要只剩下晶片。

但作者權益怎麼辦呢?依照現在大語言模型「消化」內容後,轉化為向量空間的座標,在依照提問對話生成回答。這種轉化已經很難說是純粹的複製或抄襲。所以美國判例已經認定 AI 公司僅為合理使用而不構成侵權。這對作者的權益主張相當不利。

如果要折衷,或者台灣打包正體中文著作內容授權時,可以附加但書,就是大語言模型可免費使用此內容,但如果此訓練成的模型,在全世界的市場占有率超過3%時,每年需依其營收回饋台灣 1/1000 的使用權利金。此權利金由文化部統籌分配為出版產業的補助基金。這樣產業總體形成的效益仍然回饋至產業本身,可以形成雙贏。

最後的問題是,哪來的七十餘年的台灣正體中文出版內容可讓人打包下載呢?

現在我們當然沒有這種東西,這應當是國圖必須承擔的責任。國圖組織法掌理事項第八項包括:「圖書資源數位化典藏、資訊服務政策與作業之規劃、協調、督導及推動執行。」光是「圖書資源數位化典藏」這句,國圖就有責任把館藏所有圖書、期刊、論文、報紙,全面掃描,數位化成語意完整的資料集。當著作權法修法完成後,國圖即可轉身為「資訊服務······推動執行」的主則單位。

台灣最有威力的文化軟實力,現在默默藏在國圖的書架、倉庫中,唯願有志者解放其潛力,釋放其威能,造福台灣於後代。

 

example
台灣在戰後七十餘年來,所出版的正體圖書內容,在 AI 主宰的世界,具有更獨特的價值(示意圖,Image via Shutterstock.com)