AI也會講粗口、而且對保護廣東話有重大意義?這背後其實是大型語言模型(Large Language Model)在發揮作用。
語言是文化的重要載體。到目前為止,全球有超過6000種語言或方言,然而一項研究顯示,未來100年內會有1000種語言從地球上消失。語言的消失無疑是對文明的重創,近年來廣東話的保育也被頻繁提起,而大型語言模型有機會幫助廣東話實現電子永生。
然而,搭建廣東話大型語言模型十分困難。數碼港初創公司Votee AI的技術總監陳豪傑Jacky介紹,搭建大型語言模型的語料庫需要三類資料:字典、文本及對話。與網絡上鋪天蓋地的英文不同,廣東話屬於稀缺的語言資源。Jacky舉例,根據維基最新的數據,有250萬篇文章是用英文撰寫,而廣東話寫成的文章卻不到1萬篇;同時,現有的文本多數來自討論區、WhatsApp群組等,質素難以保證,AI經過訓練後反而從中學會了“講粗口”。
此外,廣東話中口語化表達特別多,且常常出現中英夾雜的情況。Jacky觀察到,如今的廣東話潮語中有不少都是用英文字母來表達的,例如“siu4”“sls”等,這會為文本分析帶來不小的難度,即難以區分是英文還是廣東話。
語言不只是文字,還包括了“聽”和“說”。未來,技術成熟的廣東話大型語言模型不僅能夠保存下文字,還能與人交流,甚至教人說廣東話,實現語言和文化的保育及傳播。廣東話保育任重而道遠,大型語言模型的發展也許能開闢出一條新的道路。
V仔放大鏡🔍:為你解碼新聞熱點
【HongKongV】
Instagram: @hongkongv
Threads: @hongkongv
Facebook:香港V
YouTube:香港V
TikTok: @hongkongv
編輯:曹遠
快來分享你的看法吧