用AI數(shù)據(jù)訓(xùn)練AI效果怎樣？國際最新研究稱可能最終導(dǎo)致崩潰

2024-07-27 13:48:02 中國新聞網(wǎng)

　　用AI數(shù)據(jù)訓(xùn)練AI效果怎樣？國際最新研究稱可能最終導(dǎo)致崩潰 　

　　中新網(wǎng)北京7月27日電 (記者孫自法)國際學(xué)術(shù)期刊《自然》最新發(fā)表一篇計算機科學(xué)論文指出，用人工智能(AI)生成的數(shù)據(jù)集訓(xùn)練未來幾代機器學(xué)習(xí)模型可能會污染它們的輸出，這個概念稱為“模型崩潰”。

　　該研究顯示，原始內(nèi)容會在AI數(shù)代內(nèi)變成不相關(guān)的胡言亂語，顯示出使用可靠數(shù)據(jù)訓(xùn)練AI模型的重要性。

　　生成式AI工具越來越受歡迎，如大語言模型等，這類工具主要用人類生成的輸入進行訓(xùn)練。不過，隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大，計算機生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓(xùn)練其他AI模型或其自身。

　　論文第一作者兼共同通訊作者、英國牛津大學(xué)Ilia Shumailov和同事及合作者一起，用數(shù)學(xué)模型演示了AI模型可能會如何出現(xiàn)模型崩潰。他們證明了一個AI可能會忽略訓(xùn)練數(shù)據(jù)中的某些輸出(如不太常見的文本)，導(dǎo)致其只用一部分?jǐn)?shù)據(jù)集來自我訓(xùn)練。

　　隨后，論文作者還研究了AI模型會如何應(yīng)對主要用人工智能生成的訓(xùn)練數(shù)據(jù)集。他們發(fā)現(xiàn)，給模型輸入AI生成的數(shù)據(jù)會減弱今后幾代模型的學(xué)習(xí)能力，最終導(dǎo)致模型崩潰。他們測試的幾乎所有遞歸訓(xùn)練語言模型都容易出現(xiàn)重復(fù)短語。比如，一個用中世紀(jì)建筑文本作為原始輸入的測試到第九代的輸出已經(jīng)是一串野兔的名字。

　　論文作者指出，為了讓人工智能成功使用其自身輸出進行訓(xùn)練，本次研究認(rèn)為用AI生成數(shù)據(jù)訓(xùn)練一個模型并非不可能，但必須對數(shù)據(jù)進行嚴(yán)格過濾。與此同時，依賴人類生成內(nèi)容的科技公司或許能比競爭對手訓(xùn)練出更高效的AI模型。(完)

來源：中國新聞網(wǎng)

編輯：萬可義

廣告等商務(wù)合作，請點擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財經(jīng)資訊。

今日推薦