軟文推廣的網(wǎng)站

核心要點

圖片

自ChatGPT發(fā)布以來,弱智吧用戶就熱衷于利用不尋常的高質(zhì)問題挑戰(zhàn)每一個AI產(chǎn)品的能力邊界。

其中一種測試方法是量數(shù)加拿大28凤凰杀组合算法6找到類似“為什么孫悟空是中國猴子卻叫美猴王,不應(yīng)該叫中猴王嗎”、據(jù)荒“生魚片就是開悟死魚片”這種類似冷笑話的句子,看人工智能能否如人類一樣破解其真正含義。弱智吧

這類荒謬卻似乎又有一絲合理性的高質(zhì)發(fā)言,往往來自于百度貼吧“弱智吧”。量數(shù)

近日,據(jù)荒弱智吧數(shù)據(jù)在AI領(lǐng)域又多做了一份貢獻(xiàn)。開悟

由中科院深圳先進(jìn)技術(shù)研究院、弱智吧中科院自動化研究所,高質(zhì)滑鐵盧大學(xué)等高校、量數(shù)研究機構(gòu)聯(lián)合發(fā)布了一份高質(zhì)量中文指令微調(diào)數(shù)據(jù)集。據(jù)荒值得注意的開悟是,在研究過程中,學(xué)者們發(fā)現(xiàn),加拿大28凤凰杀组合算法6來自“弱智吧”的數(shù)據(jù)在其中有亮眼表現(xiàn)。

弱智吧表現(xiàn)優(yōu)異

該團(tuán)隊發(fā)布的論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》詳細(xì)介紹了其研究過程和成果。

這項研究的目的在于解決當(dāng)下中文大模型訓(xùn)練面臨的幾大難題:中文數(shù)據(jù)集很多是直接翻譯自英文翻譯,沒有很好地契合中文的語言習(xí)慣和文化背景、不少數(shù)據(jù)集是用AI生成的,可能出現(xiàn)事實性錯誤、目前大部分人工標(biāo)注的數(shù)據(jù)集,很多時候數(shù)據(jù)量小、覆蓋領(lǐng)域不全面。

基于此,團(tuán)隊從中文互聯(lián)網(wǎng)的各處搜集數(shù)據(jù),經(jīng)過一系列清洗和人工審核后,打造出了高質(zhì)量、多樣化的中文指令微調(diào)數(shù)據(jù)集COIG-CQIA。

具體而言,研究的數(shù)據(jù)來源包括知乎、思否、豆瓣、小紅書、弱智吧、百科全書、四個特定領(lǐng)域知識(醫(yī)學(xué)、經(jīng)濟(jì)、農(nóng)學(xué)、電子)、考試材料(中考、高考、考研等)、COIG-PC 等語料庫。而用以訓(xùn)練的模型是零一萬物Yi系列開源大模型。

結(jié)果,在各個方面表現(xiàn)優(yōu)秀的版本竟然是弱智吧版。

弱智吧這一數(shù)據(jù)集由500個點贊最高的帖子標(biāo)題+人工或GPT-4的回復(fù)組成, 經(jīng)過人工審核后,最終留下了240組指令-回復(fù)數(shù)據(jù)對。

在規(guī)模較小的Yi-6B模型上,純?nèi)踔前砂姹究偡峙琶诙?/p>

在Yi-34B模型上,弱智吧版本總分第一。

綜合各項結(jié)果,弱智吧在所有子集中平均排名第二。

弱智吧為何能夠有這么優(yōu)秀的發(fā)揮?

研究者認(rèn)為,可能是弱智吧問題增強了AI的邏輯推理能力,有利于完成指令遵循任務(wù)( instruct-following tasks)。“這種語料有點腦筋急轉(zhuǎn)彎的感覺,所以其使用提升了模型的推理能力。”一位技術(shù)人員這樣告訴21記者。

企業(yè)“各顯神通”

弱智吧成為優(yōu)秀訓(xùn)練素材引發(fā)關(guān)注的背后,是人工智能發(fā)展一直繞不開的訓(xùn)練數(shù)據(jù)隱憂。

數(shù)據(jù)是生成式人工智能的“糧食和血液”,其重要性不言而喻。以O(shè)penAI的GPT模型為例,GPT-1預(yù)訓(xùn)練數(shù)據(jù)量僅有5GB,GPT-2則增加至40GB,GPT-3更是達(dá)到了驚人的45TB。

“大模型時代,得數(shù)據(jù)者得天下?!睂ν饨?jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣在此前接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示,當(dāng)前技術(shù)領(lǐng)域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質(zhì)化的趨勢。在此背景下,訓(xùn)練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。

數(shù)據(jù)需求水漲船高,高質(zhì)量數(shù)據(jù)供給卻面臨稀缺之困。去年,一項來自Epoch Al Research團(tuán)隊的研究就表明,高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡。

面對這一困境,大模型廠商“各顯神通”發(fā)掘可用資源。

據(jù)媒體報道,谷歌正在考慮利用谷歌文檔、表格和幻燈片中提供的消費者數(shù)據(jù)來支撐其旗下AI產(chǎn)品的訓(xùn)練。公開消息顯示,OpenAI旗下模型的訓(xùn)練數(shù)據(jù)則有相當(dāng)一部分來自維基百科、書籍、期刊等公共互聯(lián)網(wǎng)內(nèi)容。

社交媒體上活躍而多元的數(shù)據(jù)也被認(rèn)為是大模型訓(xùn)練的好材料。

2023年12月,有知情人士向媒體表示,蘋果拿出5000萬美元嘗試Condé Nast(《Vogue》和《紐約客》的出版商)、NBC和IAC等新聞機構(gòu)交涉以獲得新聞文章的授權(quán),用以其生成式AI產(chǎn)品開發(fā)。

OpenAI在1月與數(shù)十家出版商洽談簽署文章授權(quán)協(xié)議,以獲取數(shù)據(jù)訓(xùn)練其AI模型。同樣在今年,剛剛上市的社交媒體Reddit也被傳成交了一筆年價值約6000萬美元的大生意——允許一家大型人工智能公司訪問平臺內(nèi)容用以訓(xùn)練模型。

中文數(shù)據(jù)荒何解?

數(shù)據(jù)從何而來,事實上是個國際難題。

在人工智能領(lǐng)域,我國可以稱得上是活躍的先行者。科技部新一代人工智能發(fā)展研究中心去年發(fā)布的《中國人工智能大模型地圖研究報告》顯示,從全球已發(fā)布的大模型數(shù)量來看,中國和美國大幅領(lǐng)先,占全球總數(shù)的80%以上。

然而,一面是潮水涌起,玩家紛紛入場,另一面是行業(yè)狂飆,“燃料”卻面臨枯竭。

中文大模型面臨的情況可能更加嚴(yán)峻。以ChatGPT為例,公開數(shù)據(jù)顯示,在GPT-3訓(xùn)練數(shù)據(jù)集的語言占比中,中文語料在總語料中占比不足0.1%,且其中包含繁體中文。

中國工程院院士高文曾在演講中提到,全球通用的50億大模型數(shù)據(jù)集中,中文語料僅占1.3%。一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中的中文語料也只占4.8%。

可以說,目前世界上主流的大模型都是靠英文語料庫來訓(xùn)練和生成大模型。

要研發(fā)可靠實用的中文大模型,就必須有嚴(yán)謹(jǐn)可信的中文數(shù)據(jù)庫。這對中國的人工智能的進(jìn)一步發(fā)展無疑是個挑戰(zhàn)。

知乎創(chuàng)始人、CEO周源在今年兩會時就表示,我國大模型發(fā)展當(dāng)前面臨的最顯著的問題之一是高質(zhì)量中文語料資源的短缺。

因此,加快高質(zhì)量中文數(shù)據(jù)集的挖掘開發(fā)、補齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板必不可少。

《生成式人工智能服務(wù)管理暫行辦法》就提到,要推動生成式人工智能基礎(chǔ)設(shè)施和公共訓(xùn)練數(shù)據(jù)資源平臺建設(shè);推動公共數(shù)據(jù)分類分級有序開放,擴(kuò)展高質(zhì)量的公共訓(xùn)練數(shù)據(jù)資源。

我國多地也都曾發(fā)布相關(guān)政策以求推動建立高質(zhì)量數(shù)據(jù)集。去年起,北京、深圳等地先后發(fā)布相關(guān)文件,指出要提升高質(zhì)量數(shù)據(jù)要素供給能力、歸集高質(zhì)量基礎(chǔ)訓(xùn)練數(shù)據(jù)集、建立多模態(tài)公共數(shù)據(jù)集,打造高質(zhì)量中文語料數(shù)據(jù)等?!侗本┦写龠M(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》《深圳市加快推動人工智能高質(zhì)量發(fā)展高水平應(yīng)用行動方案(2023—2024年)》等就提到過目前大模型訓(xùn)練高質(zhì)量中文語料占比過少,要打造高質(zhì)量中文語料數(shù)據(jù)庫。