GPT-5只會更笨!斯坦福萊斯考慮警告,AI訓AI超過5次,模型反噬,性能大減
用AI生成的數據訓練AI,不會有魔法,只會被反噬。
近日,萊斯大學和斯坦福團隊發現,將AI生成的內容喂給模型,只會導致性能下降。
思量人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。
論文地址:https://arxiv.org/abs/2307.01850
研討發當前使用AI數據,通過第5次迭代訓練后,模型就會患上MAD。66
在合成數據上訓練AI模型會慢慢放大偽影
換句話說,倘使無法給模型供給「新鮮的數據」,即由人類標注的數據,其輸出質量行將受到重大作用。
拒絕模型「內耗」
眼前,MAD尚未確認會用意所有AI模型,可是探索人員曾經對自編碼器、高斯混入模型、大語言模型進行了驗證。
作者寫道,「全國當下奔向一個將來,生成式AI的爆發,導致了互聯網上的合成數據,很快就會超過真實數據?!?/p>
因此,現在的AI模型,現在不知不覺中接受越來越多的人工智能合成數據的訓練。
例如,如今已知且開源的最大規模多模態數據集LAION-5B,已經用于訓練當今最先進的文本-圖像模型,網羅Stable Diffusion。
這個數據集就囊括了,從早期生成模型中采樣的合成圖像。
合成數據受歡迎的重大原因在于4點:
- 合成訓練數據比獲取真實地球的樣本更容易、更快、更便宜
- 某種情況下,合成數據增強允許抬高AI系統的性能
- 允許在醫學成像或醫療記錄等敏感應用中保護隱私
- 最重要一點,隨著深度學習模型參數越來越雄偉,現幾乎沒有真實數據可用了
為了獲取更多真實數據,就連OpenAI近日與美聯社簽訂協議,雙方將共享部分資訊內容和技術。
但是,無論是有意,仍然無意使用合成數據,曾經背離了標準的AI訓練實踐:
一代又一代地重復這一工序形成了一個自噬循環(autophagous loop),也就是自耗(self-consuming)。
不同的自噬環變化取決于,現有的真實數據和合成數據怎樣組合到將來的訓練集中。
然而,根據合成數據的生成方式,還會閃現其他變化。
譬如,研究者或算法平常會經過手動「挑選」合成數據來引入采樣偏差,以權衡感知質量(即圖像/文本看起來來不錯)與多樣性(不同類型圖像/文本)。
推敲者介紹,「質量」和「多樣性」兩個非鄭重概念,送別與確切度和召回率的統計指標密切相關。
要是合成數據已經存在于我們今天的訓練數據聚集,那么自噬循環在未來幾乎是無法避免的。
那么功用究竟有多大?
探討人員表示,不管訓練集的組成,或采樣方法如何,自噬循環對生成模型的屬性和性能的潛在效用仍知之甚少。
而有一點允許鐵定的是,使用合成數據重復訓練或然會,進一步放大任何生成模型中存在的偏差和偽影。
反正,這項考慮有三個關鍵付出:
1. 自噬循環的真實模型
團隊探索了自噬循環的3種變體:完全合成循環,其中生成模型僅在前幾代的合成樣本上進行訓練;合成增強循環,其中訓練集還包含一組固定的真實數據;新數據循環,其中訓練集還網羅每一代的一組新的真實數據。
所有這3種自噬循環模型的底線是,借如每一代沒有足夠的新鮮真實數據,未來的生成模型必需會MAD。
2. 采樣偏差在自噬循環中起著緊要效用
模型實踐者傾向于手動挑選合成數據,更喜歡又好又快的樣本,并刪除低質量的樣本。此外,最先進的生成模型常日具有可控參數,允許以犧牲多樣性為代價來提升合成質量。
探討闡明,通過這種質量多樣性(確鑿召回)權衡引起的采樣偏差,對自噬訓練循環的行為有主要效用。
具體來講,在沒有采樣偏差的情況下,自噬會導致質量和多樣性的快速下降,而在采樣偏差的情況下,質量允許如舊,但多樣性下降得更快。
3. 自噬循環行為適用于各種生成模型和數據集
除了對簡單多元高斯和高斯混入模型的分析和實證探索之外,團隊還在正文和附錄中,闡明了關鍵結論適用于各種生成模型。
部分實驗結果
在沒有采樣偏差的全合成循環中,完全使用合成數據訓練生成模型,其合成數據的質量和多樣性都會逐代下降。
在全合成循環中,生成的合成FFHQ和MNIST圖像的FID、精度和多樣性(召回率)
斟酌者給出了MNIST的真實數據和合成數據的t-SNE圖,這些數據來自沒有采樣偏差的全合成環路(λ =1)。
可以看到,生成的模式一步步合并,相互之間失去了分離。到第10代,生成的樣本幾乎無從識別。
在沒有采樣偏差的情況下,合成數據模型會偏離真實模型并合并
探究還展現,提高合成質量會損害合成多樣性。
在高質量合成數據上訓練生成模型總是會導致合成質量或合成多樣性的損失
因為采樣偏差,合成數據模型會圍著單個(高質量)圖像偏移和崩潰,而不是合并。
給生成數據打水印
所有這些會浮現MAD癥狀的模型都早已廣泛應用,并運行一段時間了:
自編碼器可以處理諸如流行推斷(譬如社交媒體應用程序的算法)、圖像壓縮、圖像去噪和圖像生成等任務;
高斯混入模型用于密度估計、聚類和圖像分割等目的,在統計學和數據科學中十分有用。
刻下流行的 ChatBot, 其應用的大型語言模型(如ChatGPT,和Anthropic的Claude)使用本身生成的內容進行訓練時,也容易在訓練中發現MAD現象。
同時,這些也強調了這些AI系統在我們生活中的首要性:算法人工智能模型在企業和公共領域都得到了廣泛應用。
這項商量提供了一種窺探「AI技術黑箱」的方法。
但也銷毀了我們從某些AI模型中制造一個「倉鼠輪」的企望:將數據輸入模型,然后將其自身生成的數據再次輸入模型,產生更多的數據再反應進模型的過程。
反而這種訓練方式會對當今存在的模型,以及這些模型的應用造成威脅。
假設一個曾經商業化使用的模型事實上是經過對其自身的輸出進行訓練的,那么該模型很或者曾經向其平均值回歸(記住,這需要大約5個輸入輸出周期才能呈現)。
模型崩潰工序示意圖
假設該模型向其平均值回歸,那么它在某種程度上已經存在著偏見,源于它沒有酌量到本應屬于少數派的數據。這也可以稱之為算法上的偏見。
探究結果中得出的另一個重要說法是對數據來源的關注?,F在更加嚴重的是或者將「原始」數據與「人工」數據區分開來。
倘若不能必然哪些數據是由LLM或生成圖像應用程序創建的,也許會不小心將其網羅在下一代產品的訓練數據中。
不幸的是,這個問題很恐怕已經不可挽回:這些類型的網絡已經產生了大批未標記的數據,并被納入其他系統中。
即使我們在ChatGPT或Midjourney的爆發之前持有整個互聯網的快照,但長期以來AI生成的數據一般都在大宗涌入全球網絡,更別說它們運行時產生的巨量數據。
模型崩潰成因的示意圖
但即便如此,至少我們曾經知道了這一點。
知道這一點,意味著尋找一種可以區別AI生成內容的水?。ㄟ@是絕對正確的)曾經成為一項更為要緊和更有利可圖的工作,標記AI生成數據的責任也變得更為嚴刻。
除此之外,還有其他方法允許彌補這些偏差。
其中一種方法是簡單改變模型的權重:增添分布尾部的結果的相關性或頻率,它們將自然地沿著鐘形曲線移動,靠近均值。這意味著它們就不太容易被修剪掉,從而避免了自動生成訓練中的數據喪失。
模型依然會丟失曲線邊緣的數據,但這些數據不再是唯一的數據來源了。
可是,權重是怎么決定的?權重怎么怎樣調整?頻率如何投入多少?
此外,我們也有責任了解模型微調的作用、以及這些用意的后果怎樣影響模型最終的生成內容。
以上每個問題的回答都會激發一系列其他問題的關注:
與模型答復背后的真實性相關的問題(其中偏差被稱為幻覺);
模型是否存在偏見,以及這種偏見的根源(若是是來自訓練數據本身或用于創立網絡的權重流程,今朝我們也從MAD過程中了解到了);
當模型訓練自身的數據時會發生什么.....但如我們所看到的,最終結果并不理想。
相似地,這個問題也是不能忽視的:
就像不接觸新知識的人會越來越固步自封和偏執。這與「模型在自身生成的內容上訓練時,它會崩潰」是相通的道理。
模彷資料:
https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-times
https://arxiv.org/pdf/2307.01850.pdf
https://futurism.com/ai-trained-ai-generated-data
https://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html
(投訴)
ChatGPT正版源碼推薦:小狐貍ChatGPT付費創作系統完全開源源碼