🔥 PTT.BEST 熱門專區 💬 八卦 Gossiping 😊 希洽 C_Chat 💰 股票 Stock 🏠 房屋 home-sale 🏀 美國職籃 NBA ⚾ 棒球 Baseball 👛 省錢 Lifeismoney 🚗 汽車 car 😡 政黑 HatePolitics 💻 電蝦 PC_Shopping 🥰 韓星 KoreaStar ✨ 英雄聯盟 LoL 🍿 電影 movie 🪖 軍事 Military 📡 通訊 MobileComm 🏀 台籃 basketballTW 🍼 寶媽 BabyMother 🇯🇵 日旅 Japan_Travel 🏭 科技 Tech_Job 👧 女孩 WomenTalk 👻 媽佛 marvel 💳 卡版 creditcard 👉 NS NSwitch 👉 PS5 PlayStation 👉 大氣 TY_Research 👉 婚姻 marriage 👉 台南 Tainan 👉 台中 TaichungBun 👉 Steam Steam 👉 高雄 Kaohsiung 👉 羽球 Badminton 👉 超商 CVS 👉 米哈遊 miHoYo 👉 iOS 👉 兄弟 Elephants 👉 日劇 Japandrama 👉 玄幻 CFantasy 👉 ES e-shopping 👉 WOW 👉 遊戲交易 Gamesale 👉 4X BaseballXXXX 👉 Lakers 👉 韓劇 KoreaDrama 👉 汽車買賣 CarShop 👉 機車 biker 👉 新竹 Hsinchu 👉 美保 BeautySalon 👉 串流 OTT 👉 歐美影集 EAseries 👉 手機交易 mobilesales 👉 健身 MuscleBeach 👉 MacShop 👉 Lions 👉 FGO FATE_GO 👉 中劇 China-Drama 👉 數位貨幣 DigiCurrency 👉 暗黑 DIABLO 👉 實習教師 studyteacher 👉 航空 Aviation 👉 藝文票券轉售 Drama-Ticket 👉 韓綜 KR_Entertain 👉 美妝 MakeUp 👉 速食 fastfood 👉 手錶 watch 👉 體適能 FITNESS 👉 攝影 DSLR 👉 Headphone 👉 嘻哈 Hip-Hop 👉 轉珠 PuzzleDragon 👉 美食 Food 👉 蔚藍 BlueArchive 👉 數位相機交易 DC_SALE 👉 筆電蝦 nb-shopping 👉 軟工 Soft_Job 👉 汪踢 Wanted 👉 台綜 TW_Entertain 👉 坂道閒聊 SakaTalk 👉 貓咪 cat 👉 日GO BabyProducts 👉 TypeMoon 👉 MLB 👉 職場 Salary 👉 臺劇 TaiwanDrama 👉 海賊王 ONE_PIECE 👉 PMGO PokemonGO 👉 國營 Gov_owned 👉 碧航 AzurLane 👉 家電 E-appliance 👉 布蘭德 Brand 👉 DMMG DMM_GAMES 👉 贈送 give 👉 神魔 ToS 👉 銀行服務板 Bank_Service 👉 原創 YuanChuang 👉 期權 Option 👉 重機 SuperBike
※ 引述《messi5566 (虹粉)》之銘言: : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預 訓練或微調的數據源跟一些微調小細節而已。 然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟 作者說的訓練數據源來看細節藏在魔鬼裡。 首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練, 理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama 2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。 理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的 ,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。 此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就 可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做 評測,根本是拿明朝的劍斬清朝的官。 當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民 幣再做簡中數據集了。 那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬 於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會 議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據 中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只 要簡轉繁AI就會自己講台灣用語。 唉~ 這邊註一下: Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會 的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回 人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接 近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專 業領域知識。 以上 阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以 阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿 自己的 大量數據集來訓練,我感覺CKIP可能要有大地震了。 呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html
derekhsu: 中研院有說是從Atom-7b微調喔175.182.19.98 10/09 14:35
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?
andy00andy: Opencc不是有簡中轉繁中用法的功能嗎180.217.231.37 10/09 14:36
andy00andy: ?還是那個不夠準確180.217.231.37 10/09 14:36
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。
dhccc: 基本上現在要訓練公司內部用的114.38.85.63 10/09 14:37
dhccc: Llm也有點苦惱 中文資源都是對岸 用語也是114.38.85.63 10/09 14:37
renna038766: 講的你比杜奕瑾還厲害 好了啦1.161.153.103 10/09 14:37
呵呵 ※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21
derekhsu: 台灣就沒模型沒算力沒資料,三無怎麼打 175.182.19.98 10/09 14:38
firose: 台灣又浪費了幾年時間了118.168.81.169 10/09 14:38
salamender: 這個id被創世神勾勾再中共同路人那邊218.172.137.200 10/09 14:39
f12sd2e2aa: 所以說三無就放推 那養中研院幹嘛 關61.231.0.237 10/09 14:40
salamender: ,你準備好被肉搜了沒?218.172.137.200 10/09 14:40
f12sd2e2aa: 一關好了 浪費稅金61.231.0.237 10/09 14:40
iopzu3lv0: 不是有姓杜的AI大神? 快出來拯救世界122.121.227.138 10/09 14:41
stlinman: 好奇自己餵資料養數據庫,成本很高嗎?101.136.159.171 10/09 14:41
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?
yesonline: 可以拿近8年中央政府新聞稿訓練啊.. 220.133.253.85 10/09 14:42
yesonline: 怎麼會沒資料.繁體資料可多著呢.. 220.133.253.85 10/09 14:43
s900527: 綠共塔綠班政府~只會大內宣而已~ 61.227.225.131 10/09 14:43
s900527: 專門騙台灣智障人民就夠了61.227.225.131 10/09 14:43
yesonline: 各部會公開資訊也能用. 只是要不要做啦220.133.253.85 10/09 14:44
enthpzd: 講中文好嗎101.136.167.139 10/09 14:47
afking: 這麼閹割的東西就會被靠北上新聞了,怎麼 1.171.61.199 10/09 14:48
afking: 覺得上面會給資源燒錢做數據集笑死1.171.61.199 10/09 14:48
zweihander99: 竟敢說台灣落後對岸,你完惹223.140.139.36 10/09 14:49
Caroney: 國科會那邊也是一堆畫餅廢物「創造具台 1.169.85.178 10/09 14:52
Caroney: 灣特色的chatGPT」1.169.85.178 10/09 14:52
lonelyQQ: 翻譯台灣應該全面使用支語 61.224.55.6 10/09 14:54
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18
depo: 這方案主管全部槍斃阿 111.71.213.59 10/09 14:57
greg7575: 民進黨又不台獨,用一下簡中還好吧111.251.205.229 10/09 14:59
ks454: 成本巨大,中研院最好是知識圖譜做好就套小 223.139.162.9 10/09 14:59
ks454: 範圍,出通用一看就不可能 223.139.162.9 10/09 14:59
greg7575: 逆變器什麼的都買支那,愛台灣就對了111.251.205.229 10/09 15:01
gamete: 連收集資料都懶得做,這還叫做研究單位 118.166.26.94 10/09 15:01
greg7575: 看這個案子開多少錢啊。錢不夠就偷111.251.205.229 10/09 15:02
yesonline: 數位部/國科會/中研院/工研院都有預算 220.133.253.85 10/09 15:06
dhccc: 出錢給台大李宏毅老師弄一個就好了 看他教114.38.85.63 10/09 15:07
yesonline: 一堆相似的研究計畫提案... 220.133.253.85 10/09 15:07
dhccc: 得有模有樣的 114.38.85.63 10/09 15:07
riker729: 不是你以為中研院是養老院是說假的? 1.169.225.96 10/09 15:10
CaTkinGG: 感覺又浪費了好幾年 114.137.218.16 10/09 15:11
riker729: 人家做了好幾年 大紅之後我們才來一窩蜂 1.169.225.96 10/09 15:11
leisureman: https://i.imgur.com/TT58ZZC.png 223.137.92.97 10/09 15:16
alan3100: 政府本來就脫離現實很多 剩一堆老害主導118.160.92.92 10/09 15:16
alan3100: 之前喊啥元宇宙 都破滅幾年了才鴿子封包118.160.92.92 10/09 15:17
alan3100: 政府與裙帶企業有非常高的政商關係壁壘 118.160.92.92 10/09 15:19
alan3100: 高手才不會進去淌渾水 錢少熱臉貼冷屁股118.160.92.92 10/09 15:20
yannicklatte: 你去選根路燈吧 42.73.44.162 10/09 15:20
WantFxxk4X: 台灣大灑民脂民膏至少領先柬埔寨 看衰1.200.107.124 10/09 15:20
WantFxxk4X: 台灣藍白真噁 1.200.107.124 10/09 15:21
alan3100: 剩一堆垃圾在同溫層互相取暖 118.160.92.92 10/09 15:21
strikecbu: 好大喜功的內閣 繼續騙 111.71.212.23 10/09 15:23
newforte: 台灣日常123.195.145.219 10/09 15:24
tsrn46336686: 成本巨大有什麼問題 這種成本除了中80.113.55.112 10/09 15:28
tsrn46336686: 研院還有誰可以做 更簡單說台灣是繁 80.113.55.112 10/09 15:28
tsrn46336686: 體中文大本營 更應該由國家做數據中80.113.55.112 10/09 15:28
tsrn46336686: 心吧 80.113.55.112 10/09 15:28
BIGETC: 有兩百億預算的數位部和天才it大臣 中國那223.140.139.201 10/09 15:29
BIGETC: 點玩具模型 還不是223.140.139.201 10/09 15:29
luciffar: 跟高端系出同源一樣 我懂 111.71.214.66 10/09 15:30
ChungLi5566: 餵垃圾去訓練就只會訓練出垃圾116.241.253.112 10/09 15:31
KKevin5566: 党不喜歡你這種人172.58.27.157 10/09 15:31
ChungLi5566: 要訓練的資料必須先清洗過116.241.253.112 10/09 15:32
dtdon1699: 中研院代工廠118.169.54.151 10/09 15:38
alan3100: 做這個成本遠超你想像 一直燒錢不是單次118.160.92.92 10/09 15:41
Mchord: 加碼改善油水肥滋滋那需要什麼大地震 1.163.19.90 10/09 15:45
Violataf: 不太懂他們的腦袋在想什麼111.71.214.45 10/09 15:50
Violataf: 拿對岸的來簡轉繁最後一定會出問題的阿 111.71.214.45 10/09 15:50
jerry8507: 推推專業 111.71.80.17 10/09 16:02
Rootless: 一樣花了大錢啊,細節不重要啦,40% 49.216.101.4 10/09 16:09
rhox: 你有中研院的人厲害嗎? 閉嘴 36.229.81.84 10/09 16:14
banana246: 什麼黨再補助一百億給我加強 27.51.106.15 10/09 16:16
MicroB: 敦義:你不要這麼專業好不好? 50.126.66.214 10/09 16:19
silentneko: 推一下假裝我有看懂 101.10.93.86 10/09 16:22
RLH: 台灣這20多年不知道在幹嘛 1.171.235.58 10/09 16:24
Spurious: 中研院這次壞了自己名聲27.52.227.220 10/09 16:25
spring719: 林北文組,看不懂 42.76.71.215 10/09 16:25
richard88502: 資料清洗比訓練還要累多了,有在fin 39.15.18.93 10/09 16:29
richard88502: etune的應該都有感覺 39.15.18.93 10/09 16:29
其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化 ,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。
teariceooo: 專業推 雖然看不懂 210.133.177.42 10/09 16:33
mcgrady12336: AI就美中大戰,台灣乖乖做代工就好 27.242.34.2 10/09 16:37
ralfbrian: 研究單位的話,說不定有人是中國來的,178.197.199.183 10/09 16:40
ralfbrian: 覺得只是簡轉繁沒關係178.197.199.183 10/09 16:40
azure: 等等 講這些前有想過党不喜歡聰明的孩子嗎? 1.200.76.234 10/09 16:45
aj1234: 那我這邊有一筆社群網站的繁中資料,我記 223.137.46.188 10/09 16:50
aj1234: 得是兩三百萬筆,是不是就變得蠻值錢的223.137.46.188 10/09 16:50
leterg: 台灣只會喊大數據,其他沒了116.89.129.17 10/09 16:54
leterg: 中國那邊資料的確多,尤其知識型的116.89.129.17 10/09 16:56
s90002442: 中研院要不要把一些大餅計畫砍一砍 集114.136.242.255 10/09 17:02
s90002442: 中火力在重要的計畫比較實在114.136.242.255 10/09 17:02
DA3921999: 養黨工不用錢?養側翼不用錢?養圖文畫49.159.255.113 10/09 17:10
DA3921999: 家跟YTBer?別拿中國不用養這些狗的標49.159.255.113 10/09 17:10
DA3921999: 準來看台灣49.159.255.113 10/09 17:10
lunatich: 上面又不懂技術,只押著你急著做出東西101.10.44.253 10/09 17:13
lunatich: 大內宣,下面就只能拿現成的改改交交差101.10.44.253 10/09 17:14
lunatich: 嘍 101.10.44.253 10/09 17:14
amethystboy: 我宣佈以後臺灣都叫公交車 111.243.130.60 10/09 17:30
jeson711: 就做出來看起來像騙騙不懂的180.176.65.170 10/09 17:44
modernpkman: 數位部?跟這個會有關聯嗎?123.194.169.120 10/09 17:46
StarCat76: 台灣人做東西的調調就這樣,講求一個快223.141.233.23 10/09 17:50
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38
haver: 雖然兩邊用語有越來越接近 但還是有差別啊 61.227.19.213 10/09 18:04
soy915221: 不就是懶到剩抄,抄到一字不變的, 223.138.76.11 10/09 18:15
soy915221: 不合格學生?中研院?你有在做事? 223.138.76.11 10/09 18:16
monnom: 推專業 1.165.72.58 10/09 19:00
shi21: 這篇專業 推一個 118.167.151.88 10/09 19:02
germun: 不想花錢花時間花人力就只能抄阿 抄抄抄 36.224.150.14 10/09 19:04
ericleft: 中研院的水準怎麼這幾年低落成這樣 114.44.146.147 10/09 20:50
rick917: 推專業 111.249.28.89 10/09 21:31
iMElLoN: 中研院不清楚,不過國科會(舊)確實是 59.126.193.231 10/09 23:25
iMElLoN: 畫大餅專門 59.126.193.231 10/09 23:25
dlshao: 推認真回覆…有在關注的深感認同 123.192.82.133 10/09 23:29
asmiocv: 看就知道沒錢弄出來交差的東西 211.78.38.207 10/09 23:52
photoswimmer: 台灣沒人會花錢做基礎的啦 1.200.80.124 10/10 03:08

💬 八卦 Gossiping 版:熱門文章

💬 八卦 Gossiping 版:更多文章