繁中大語言模型高品質語料庫在哪裡?


事實上台灣有十幾個節點,可以很現成地取得百億等級文字量,而且結構上已經清洗得相當乾淨的文檔作為訓練語料,那就是台灣各大電子書平台(示意圖,Image via Shutterstock.com)

 

自從大語言模型攫取世人目光以來,我們從震驚轉成嘗鮮,又從興奮轉成擔憂。擔憂的事情從工作何時被機器取代,到機器何時統治人類,不一而足。現在隨著AI PC的出現,相比於大模型訓練量越來越龐大的趨勢,另一股反向趨勢也出現了,那就是如 GPT-4o mini 所宣稱的,更小的體積,更快的速度,和更便宜的取用成本。

過程中反覆出現的另一個主題則是繁中語料主權的問題。由於繁中語文使用人口的先天限制,在網路上簡中語料的數量,硬是比繁中語料多出百倍乃至數百倍之多,加上前期釋出中文大語言訓練的成品多是簡中產品,這使得去年台灣在宣稱基於繁中語料訓練出來的成品釋出時,還鬧出國慶日是十月一日的笑話來。

繁中語料訓練的大語言模型,變成具有主權較勁意味的AI競爭。於是從國科會、華碩到聯發科,紛紛推出自己的繁中版大語言模型。官方可以主導的繁中資料庫如中央社、光華雜誌、國教院等也把內容授權出來,供合作單位訓練使用。

在這些趨勢底下,更「高品質」的繁中語料變成大家關注的目標。過去許多英美大廠不諱言為了取得更高品質的訓練語料,他們有可能穿過付費牆,以需付費內容作為訓練來源。而國內的麻煩是即使你有心想穿過付費牆,能夠提供高品質語料的目標也不多······等一下,真的不多嗎?

事實上台灣有十幾個節點,可以很現成地取得百億等級文字量,而且結構上已經清洗得相當乾淨的文檔作為訓練語料,那就是台灣各大電子書平台。

台灣目前活躍的電書平台至少有十四個,它們包括博客來、Book Walker、Google Play、樂天Kobo、Readmoo、Taaze、Pubu、myBook、Hami書城、UDN讀書吧、凌網HyRead、華藝iRead、FunPark、Amazon Kindle等,平台上可供應的書種,從十餘萬種,至五百萬種(這應該是包含眾多日文漫畫)不等。平均以十萬種計,每個平台的「已出版等級語料」就是(十萬*十萬=)百億等級的文字量。

而「已出版等級的語料」,則是經過編輯審查、具有足夠可讀性、知識經過初步核實、錯字率經過特別程序校對、以繁中發行,且有相當講究的Mata Data文本識別標籤(如書名、作者、出版社、出版年、CIP歸類、內容簡介、序文、目次等)的內容。

這些書的內文為了做成電子書,也絕大部分以ePub格式做過文稿階層結構篇章節內文圖說等的標記(tagging)。事實上國內外每個大語言模型開發案,都以圖書內容為最高品質語料來看待。

不過內容就在那裡,卻似乎沒有哪個大模型專案直接跟電書平台要求內容合作。

當然最直接的理由就是因為著作權法的限制,如果要取得圖書內容作為大語言模型訓料語料,似乎要先取得出版社授權,而台灣千餘家的有效出版社要一家一家談起來,工程就浩大了。

但依我來看,著作權問題不難解決。

現在出版社跟作者簽的每一份合約,都會有一條轉授權條款,就是基於行銷目的,出版社有權取用書中10-15%的內容,轉授權予其他媒體搶先曝光或轉載,不必再支付稿費,也不需要再取得授權,直接就能做。

國外也有AI公司為了解決和內容業者的版權關係,如新一代搜尋引擎 Perplexity AI 就計畫針對媒體內容業者及創作者推出商業分享計畫,讓搜尋結果頁的廣告收入可以跟內容供應者分享。

每一家電書平台只要跟出版社重新換約,把電子書經銷合約,調整為電子書經銷及內容轉授權合約,同意平台可以把內容轉給第三方AI公司作訓練語料,且未來AI回答問題時如果參考了某本書,都必須在註腳註明書籍資料及購買該書的購書連結(就跟古哥圖書現在的作法一樣),或者像上面 Perplexity AI 的作法,提供廣告拆帳分成。

出版社只要確保這個訓練成果,一不會回答超過整本書十分之一的內容,二還能對賣書或內容收入有幫助,那麼出版社就有足夠的權限跟電書平台重換新約;依照它們跟作者合約中的行銷授權條款,出版社連作者那邊都不需要再取得授權。

你可以說這只是我的法律見解,不過若依照古哥掃描大學圖書館藏書後,跟美國五大出版社打官司的案例看,美國法院的判例是,為搜尋引擎掃描圖書,只是合理引用,並不構成侵權(參:美國著作權判決快訊:Google圖書館案勝訴判決確定)。那麼用電書內容來訓練AI,在台灣也有很大可能屬於合理使用的範圍。

哪一個大語言模型專案搶先跟哪一家電書平台達成合作協議,他們就有機會比競爭對手早一步推出更好的「中文」大語言模型,而不只是更好的「繁中」大語言模型而已。

台灣已經浮上水面的大模型開發專案有四五家,而那些尚未浮出水面,處心積慮想著怎樣能彎道超車的潛在廠商,有多少會抱定爭取最佳中文語料的決心,為台灣的AI主權踏出關鍵一步呢?

 


【參考資料】

 

 

example
繁中語料訓練的大語言模型,變成具有主權較勁意味的AI競爭(示意圖,Image via Shutterstock.com)