國科會補助國研院辦理「晶片驅動產業創新再升級計畫-精進臺灣可信任AI大語言模型暨提升素養能力計畫」,114年度預算案編列1億3,700萬元。經查:,
(一)計畫概要
本計畫係精進「推動可信任生成式AI發展先期計畫」已建立之繁體中文版可信任AI對話引擎(TAIDE),透過補助國研院建置資料蒐集平台,持續收納各面向專用領域繁體中文語料及文本,精進模型開發技術,推動個人式AI能力認證並針對組織進行生成式AI燈塔評選與推廣,引領各領域學習與導入生成式AI,並推廣全民使用生成式AI之新興工具與應用技術,促進社會民生之AI養成(詳表1)。
表1 「精進台灣可信任AI大語言模型暨提升素養能力計畫」概要表
項目
內容
計畫目標
發展符合臺灣主體意識之生成式AI基礎模型之開發,確保繁體中文之全球影響力,並推動全民生成式AI素養並建立產學活化機制。
細部計畫
1.資料蒐集及預處理。
2.精進生成式AI模型開發技術。
3.全民AI素養提升與能力認證建立。
4.生成式AI燈塔評選與推廣。
經費需求
114年度:137,000千元(預算案)。
115年度:140,000千元(計畫書概估)。
116年度:140,000千元(計畫書概估)。
117年度:140,000千元(計畫書概估)。
預期關鍵成果
114年度:
1.完成資料蒐集平台之建置,持續蒐集繁體中文資料及至少3個應用主題之專用資料。
2.完成模型之繁體中文支援,年度下載量超過1萬人次,並 完成3種應用領域之模型最佳化,以提供特定用戶。
3.建立符合國際規範的AI素養課程、測評與認證體系雛型,推動跨界AI素養教育應用。優化一套AI素養能力分級與線上評測系統之應用服務。
4.建立生成式AI燈塔評選機制。從2個垂直領域中建立標竿示範6案,帶動各領域組織學習與導入生成式AI。
資料來源:114年度政府科技發展計畫「晶片驅動臺灣產業創新-精進臺灣可信任生成式AI大語言模型暨提升素養能力推動計畫」計畫書。
(二)TAIDE模型5個月下載量已逾14萬次,惟該計畫績效目標下載量所訂僅1年1萬人次及4年2萬人次,允宜審酌執行實況設定具挑戰性之目標值,俾利評估計畫成效
TAIDE共有5模型版本,自113年4月開始陸續釋出,截至8月底累計下載量達14萬8,506次,平均單月下載量2萬9,701次(詳表2),該計畫預計以4年時間精進TAIDE模型,期間將完成資料蒐集平台之建置,持續蒐集繁體中文資料及應用主題之專用資料,以完成模型之繁體中文支援,惟該計畫所設定之下載量目標值僅1年1萬人次及4年2萬人次,對照TAIDE模型實際下載量,明顯未具挑戰性,允宜參酌執行實績,適度調升目標值,俾利評估計畫成效。
綜上,國科會114年度預算案補助國研院辦理發展符合臺灣主體意識之生成式AI基礎模型之開發,確保繁體中文全球影響力,惟所設定之年度下載量績效目標值遠低於TAIDE模型實際下載量,允宜審酌執行實況重行設定具挑戰性之目標值,俾利評估計畫成效。
表2 TAIDE模型下載次數統計表 單位:次
模型名稱
釋出時間
模型差異
113年8月下載量
累計
下載量
TAIDE-LX-7B-Chat-4bit
113/04/15
TAIDE-LX-7B-Chat之4 bit 量化模型,以提供使用者之便利性為考量,可能會影響效能與更多不可預期之問題。
177
1,892
TAIDE-LX-7B-Chat
113/04/15
以 TAIDE-LX-7B 為基礎,透過指令微調強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助之使用情境。
19,658
53,050
TAIDE-LX-7B
113/04/15
以 LLaMA2-7B為基礎,僅使用繁體中文資料預訓練,適合針對模型進一步微調之使用情境。
231
8,741
Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit
113/04/29
以 LLaMA3-8B為基礎,使用繁體中文資料預,並透過指令微調強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助之使用情境。
496
3,092
Llama3-TAIDE-LX-8B-Chat-Alpha1
113/04/29
Llama3-TAIDE-LX-8B-Chat-Alpha1之4bit ,量化模型,以提供使用者之便利性,可能會影響效能與更多不可預期之問題。
4,468
81,731
合計
25,030
148,506
說 明:累計下載量係截至113年8月底止。
資料來源:國科會。
