

推 derekhsu: 中研院有說是從Atom-7b微調喔175.182.19.98 10/09 14:35
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈
?
推 andy00andy: Opencc不是有簡中轉繁中用法的功能嗎180.217.231.37 10/09 14:36
→ andy00andy: ?還是那個不夠準確180.217.231.37 10/09 14:36
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加
詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就
全部把你文字裡面的「的士」轉成計程車。。
推 dhccc: 基本上現在要訓練公司內部用的114.38.85.63 10/09 14:37
→ dhccc: Llm也有點苦惱 中文資源都是對岸 用語也是114.38.85.63 10/09 14:37
推 renna038766: 講的你比杜奕瑾還厲害 好了啦1.161.153.103 10/09 14:37
呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21
推 derekhsu: 台灣就沒模型沒算力沒資料,三無怎麼打 175.182.19.98 10/09 14:38
推 firose: 台灣又浪費了幾年時間了118.168.81.169 10/09 14:38
推 salamender: 這個id被創世神勾勾再中共同路人那邊218.172.137.200 10/09 14:39
推 f12sd2e2aa: 所以說三無就放推 那養中研院幹嘛 關61.231.0.237 10/09 14:40
→ salamender: ,你準備好被肉搜了沒?218.172.137.200 10/09 14:40
→ f12sd2e2aa: 一關好了 浪費稅金61.231.0.237 10/09 14:40
推 iopzu3lv0: 不是有姓杜的AI大神? 快出來拯救世界122.121.227.138 10/09 14:41
推 stlinman: 好奇自己餵資料養數據庫,成本很高嗎?101.136.159.171 10/09 14:41
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文
字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai
n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的
句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你
覺得維護成本低嗎?
→ yesonline: 可以拿近8年中央政府新聞稿訓練啊.. 220.133.253.85 10/09 14:42
→ yesonline: 怎麼會沒資料.繁體資料可多著呢.. 220.133.253.85 10/09 14:43
推 s900527: 綠共塔綠班政府~只會大內宣而已~ 61.227.225.131 10/09 14:43
→ s900527: 專門騙台灣智障人民就夠了61.227.225.131 10/09 14:43
→ yesonline: 各部會公開資訊也能用. 只是要不要做啦220.133.253.85 10/09 14:44
→ enthpzd: 講中文好嗎101.136.167.139 10/09 14:47
推 afking: 這麼閹割的東西就會被靠北上新聞了,怎麼 1.171.61.199 10/09 14:48
→ afking: 覺得上面會給資源燒錢做數據集笑死1.171.61.199 10/09 14:48
推 zweihander99: 竟敢說台灣落後對岸,你完惹223.140.139.36 10/09 14:49
推 Caroney: 國科會那邊也是一堆畫餅廢物「創造具台 1.169.85.178 10/09 14:52
→ Caroney: 灣特色的chatGPT」1.169.85.178 10/09 14:52
推 lonelyQQ: 翻譯台灣應該全面使用支語 61.224.55.6 10/09 14:54
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18
推 depo: 這方案主管全部槍斃阿 111.71.213.59 10/09 14:57
推 greg7575: 民進黨又不台獨,用一下簡中還好吧111.251.205.229 10/09 14:59
推 ks454: 成本巨大,中研院最好是知識圖譜做好就套小 223.139.162.9 10/09 14:59
→ ks454: 範圍,出通用一看就不可能 223.139.162.9 10/09 14:59
推 greg7575: 逆變器什麼的都買支那,愛台灣就對了111.251.205.229 10/09 15:01
推 gamete: 連收集資料都懶得做,這還叫做研究單位 118.166.26.94 10/09 15:01
→ greg7575: 看這個案子開多少錢啊。錢不夠就偷111.251.205.229 10/09 15:02
→ yesonline: 數位部/國科會/中研院/工研院都有預算 220.133.253.85 10/09 15:06
推 dhccc: 出錢給台大李宏毅老師弄一個就好了 看他教114.38.85.63 10/09 15:07
→ yesonline: 一堆相似的研究計畫提案... 220.133.253.85 10/09 15:07
→ dhccc: 得有模有樣的 114.38.85.63 10/09 15:07
推 riker729: 不是你以為中研院是養老院是說假的? 1.169.225.96 10/09 15:10
推 CaTkinGG: 感覺又浪費了好幾年 114.137.218.16 10/09 15:11
→ riker729: 人家做了好幾年 大紅之後我們才來一窩蜂 1.169.225.96 10/09 15:11

→ alan3100: 政府本來就脫離現實很多 剩一堆老害主導118.160.92.92 10/09 15:16
→ alan3100: 之前喊啥元宇宙 都破滅幾年了才鴿子封包118.160.92.92 10/09 15:17
→ alan3100: 政府與裙帶企業有非常高的政商關係壁壘 118.160.92.92 10/09 15:19
→ alan3100: 高手才不會進去淌渾水 錢少熱臉貼冷屁股118.160.92.92 10/09 15:20
推 yannicklatte: 你去選根路燈吧 42.73.44.162 10/09 15:20
推 WantFxxk4X: 台灣大灑民脂民膏至少領先柬埔寨 看衰1.200.107.124 10/09 15:20
→ WantFxxk4X: 台灣藍白真噁 1.200.107.124 10/09 15:21
→ alan3100: 剩一堆垃圾在同溫層互相取暖 118.160.92.92 10/09 15:21
推 strikecbu: 好大喜功的內閣 繼續騙 111.71.212.23 10/09 15:23
推 newforte: 台灣日常123.195.145.219 10/09 15:24
推 tsrn46336686: 成本巨大有什麼問題 這種成本除了中80.113.55.112 10/09 15:28
→ tsrn46336686: 研院還有誰可以做 更簡單說台灣是繁 80.113.55.112 10/09 15:28
→ tsrn46336686: 體中文大本營 更應該由國家做數據中80.113.55.112 10/09 15:28
→ tsrn46336686: 心吧 80.113.55.112 10/09 15:28
推 BIGETC: 有兩百億預算的數位部和天才it大臣 中國那223.140.139.201 10/09 15:29
→ BIGETC: 點玩具模型 還不是223.140.139.201 10/09 15:29
推 luciffar: 跟高端系出同源一樣 我懂 111.71.214.66 10/09 15:30
→ ChungLi5566: 餵垃圾去訓練就只會訓練出垃圾116.241.253.112 10/09 15:31
推 KKevin5566: 党不喜歡你這種人172.58.27.157 10/09 15:31
→ ChungLi5566: 要訓練的資料必須先清洗過116.241.253.112 10/09 15:32
推 dtdon1699: 中研院代工廠118.169.54.151 10/09 15:38
→ alan3100: 做這個成本遠超你想像 一直燒錢不是單次118.160.92.92 10/09 15:41
推 Mchord: 加碼改善油水肥滋滋那需要什麼大地震 1.163.19.90 10/09 15:45
推 Violataf: 不太懂他們的腦袋在想什麼111.71.214.45 10/09 15:50
→ Violataf: 拿對岸的來簡轉繁最後一定會出問題的阿 111.71.214.45 10/09 15:50
推 jerry8507: 推推專業 111.71.80.17 10/09 16:02
推 Rootless: 一樣花了大錢啊,細節不重要啦,40% 49.216.101.4 10/09 16:09
噓 rhox: 你有中研院的人厲害嗎? 閉嘴 36.229.81.84 10/09 16:14
推 banana246: 什麼黨再補助一百億給我加強 27.51.106.15 10/09 16:16
推 MicroB: 敦義:你不要這麼專業好不好? 50.126.66.214 10/09 16:19
推 silentneko: 推一下假裝我有看懂 101.10.93.86 10/09 16:22
推 RLH: 台灣這20多年不知道在幹嘛 1.171.235.58 10/09 16:24
→ Spurious: 中研院這次壞了自己名聲27.52.227.220 10/09 16:25
推 spring719: 林北文組,看不懂 42.76.71.215 10/09 16:25
推 richard88502: 資料清洗比訓練還要累多了,有在fin 39.15.18.93 10/09 16:29
→ richard88502: etune的應該都有感覺 39.15.18.93 10/09 16:29
其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化
,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA
I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。
推 teariceooo: 專業推 雖然看不懂 210.133.177.42 10/09 16:33
推 mcgrady12336: AI就美中大戰,台灣乖乖做代工就好 27.242.34.2 10/09 16:37
→ ralfbrian: 研究單位的話,說不定有人是中國來的,178.197.199.183 10/09 16:40
→ ralfbrian: 覺得只是簡轉繁沒關係178.197.199.183 10/09 16:40
→ azure: 等等 講這些前有想過党不喜歡聰明的孩子嗎? 1.200.76.234 10/09 16:45
推 aj1234: 那我這邊有一筆社群網站的繁中資料,我記 223.137.46.188 10/09 16:50
→ aj1234: 得是兩三百萬筆,是不是就變得蠻值錢的223.137.46.188 10/09 16:50
推 leterg: 台灣只會喊大數據,其他沒了116.89.129.17 10/09 16:54
→ leterg: 中國那邊資料的確多,尤其知識型的116.89.129.17 10/09 16:56
→ s90002442: 中研院要不要把一些大餅計畫砍一砍 集114.136.242.255 10/09 17:02
→ s90002442: 中火力在重要的計畫比較實在114.136.242.255 10/09 17:02
噓 DA3921999: 養黨工不用錢?養側翼不用錢?養圖文畫49.159.255.113 10/09 17:10
→ DA3921999: 家跟YTBer?別拿中國不用養這些狗的標49.159.255.113 10/09 17:10
→ DA3921999: 準來看台灣49.159.255.113 10/09 17:10
推 lunatich: 上面又不懂技術,只押著你急著做出東西101.10.44.253 10/09 17:13
→ lunatich: 大內宣,下面就只能拿現成的改改交交差101.10.44.253 10/09 17:14
→ lunatich: 嘍 101.10.44.253 10/09 17:14
推 amethystboy: 我宣佈以後臺灣都叫公交車 111.243.130.60 10/09 17:30
推 jeson711: 就做出來看起來像騙騙不懂的180.176.65.170 10/09 17:44
→ modernpkman: 數位部?跟這個會有關聯嗎?123.194.169.120 10/09 17:46
推 StarCat76: 台灣人做東西的調調就這樣,講求一個快223.141.233.23 10/09 17:50
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38
→ haver: 雖然兩邊用語有越來越接近 但還是有差別啊 61.227.19.213 10/09 18:04
噓 soy915221: 不就是懶到剩抄,抄到一字不變的, 223.138.76.11 10/09 18:15
→ soy915221: 不合格學生?中研院?你有在做事? 223.138.76.11 10/09 18:16
推 monnom: 推專業 1.165.72.58 10/09 19:00
推 shi21: 這篇專業 推一個 118.167.151.88 10/09 19:02
推 germun: 不想花錢花時間花人力就只能抄阿 抄抄抄 36.224.150.14 10/09 19:04
推 ericleft: 中研院的水準怎麼這幾年低落成這樣 114.44.146.147 10/09 20:50
推 rick917: 推專業 111.249.28.89 10/09 21:31
→ iMElLoN: 中研院不清楚,不過國科會(舊)確實是 59.126.193.231 10/09 23:25
→ iMElLoN: 畫大餅專門 59.126.193.231 10/09 23:25
推 dlshao: 推認真回覆…有在關注的深感認同 123.192.82.133 10/09 23:29
推 asmiocv: 看就知道沒錢弄出來交差的東西 211.78.38.207 10/09 23:52
推 photoswimmer: 台灣沒人會花錢做基礎的啦 1.200.80.124 10/10 03:08