V仔:廣東話保育任重而道遠
2024-09-06
香港V

AI也會講粗口、而且對保護廣東話有重大意義?這背後其實是大型語言模型(Large Language Model)在發揮作用。

語言是文化的重要載體。到目前為止,全球有超過6000種語言或方言,然而一項研究顯示,未來100年內會有1000種語言從地球上消失。語言的消失無疑是對文明的重創,近年來廣東話的保育也被頻繁提起,而大型語言模型有機會幫助廣東話實現電子永生。

然而,搭建廣東話大型語言模型十分困難。數碼港初創公司Votee AI的技術總監陳豪傑Jacky介紹,搭建大型語言模型的語料庫需要三類資料:字典、文本及對話。與網絡上鋪天蓋地的英文不同,廣東話屬於稀缺的語言資源。Jacky舉例,根據維基最新的數據,有250萬篇文章是用英文撰寫,而廣東話寫成的文章卻不到1萬篇;同時,現有的文本多數來自討論區、WhatsApp群組等,質素難以保證,AI經過訓練後反而從中學會了“講粗口”。

此外,廣東話中口語化表達特別多,且常常出現中英夾雜的情況。Jacky觀察到,如今的廣東話潮語中有不少都是用英文字母來表達的,例如“siu4”“sls”等,這會為文本分析帶來不小的難度,即難以區分是英文還是廣東話。

語言不只是文字,還包括了“聽”和“說”。未來,技術成熟的廣東話大型語言模型不僅能夠保存下文字,還能與人交流,甚至教人說廣東話,實現語言和文化的保育及傳播。廣東話保育任重而道遠,大型語言模型的發展也許能開闢出一條新的道路。

V仔放大鏡🔍:為你解碼新聞熱點

【HongKongV】
Instagram: @hongkongv
Threads: @hongkongv
Facebook:香港V
YouTube:香港V
TikTok: @hongkongv

編輯:曹遠


分享至
weibo
facebook
twitter
0 條評論
請先登錄後再發表評論
這裡空空如也...
快來分享你的看法吧