用於訓練大型語言模型的資料集通常缺乏多樣性

2024 年 9 月 1 日

分類

標籤

WordPress 網站

為了訓練更強大的大型語言模型，研究人員使用龐大的資料集來混合來自數千個網路來源的不同資料。

但隨著這些資料集被組合併重新組合成多個集合，有關其起源和如何使用它們的限制的重要資訊經常處於混亂中、遺失或混亂中。

這不僅會引起法律和道德問題，還會損害訓練模型的功能。

另外，來自未知來源的數據可能包含偏差，導致模型在部署時做出不公平的預測。

為了提高資料透明度，來自麻省理工學院等地方的多學科研究人員團隊對一些熱門託管網站上的1800多個文字資料集進行了系統審計。而大約50% 的資料集包含包含錯誤的資訊。

基於這些意見，他們開發了一種名為 Data Provenance Explorer 的使用者介面工具，可自動產生資料集建立者、來源授權、並允許使用易於閱讀的摘要。

麻省理工學院教授、麻省理工學院媒體實驗室人類動力學小組負責人Alex“Sandy”Pentland表示：「這些類型的工具可以幫助監管機構和從業者就AI部署做出明智的決策，並進一步促進AI的增益發展。

Data Provenance Explorer選擇可以幫助人工智慧從業人員訓練適合其預期模型目的的資料集，從而建立更有效的模型。貸款申請或回應客戶查詢的模型。

「了解人工智慧模型的功能和限制的最佳方法是了解它所訓練的數據。當你對數據來源產生錯誤和困惑時，你可能會遇到嚴重的透明度問題。」理工學院人類動力學小組的研究生、哈佛法學院的法學博士論文以及該論文的共同主要作者。

Mahari 和 Pentland 與實驗室媒體的研究生 Shayne Longpre 共同撰寫了這篇論文。爾德分校、奧林學院、卡內基美隆大學、Contextual AI、ML Commons 和Tidelift 的其他機構。 自然智慧機器。

注意力集中

研究人員經常使用一種稱為「強度」的技術來提高針對特定任務（例如問答）配置大型語言模型的能力。表現。

麻省理工學院的研究人員專注於這些數據集，這些數據集通常由研究人員、學術組織或公司開發，並獲得特定用途的許可。

當眾包平台將此類資料集聚合成更大的集合供行業者使用時，一些原始許可資訊通常會被遺忘。

「這些許可證應該很重要，而且應該是可執行的，」馬哈里說。

例如，如果資料集的授權條款出現錯誤或撤銷，有人可能會花費大量金錢和時間來開發一個模型，他們可能會逐漸被迫刪除，因為某些培訓資料包含私人資訊。

Longpre補充說：“最終人們可能會在不了解這些模型的功能、擔憂或風險的情況下訓練模型，而這些模型最終來自數據。”

為了開始這項研究，研究人員正式將資料來源定義為資料集的來源、創建和授權遺產及其特徵的組合。的資料庫的1,800多個文字資料集集合的資料來源。

研究人員發現超過 70% 的數據集包含“未指定”的許可證，遺漏了很多信息，隨後研究人員回溯到填補空白。到了30%左右。

他們的工作還表明，正確的許可證通常比儲存庫分配的許可證更具限制性。

另外，他們發現幾乎所有資料集創建者都集中在全球北部進行訓練，如果模型經過在不同地區進行部署，這可能會限制模型的功能。的土耳其語資料集可能不包含任何具有文化意義的面向。

「我們幾乎自欺欺人地認為資料集比實際情況更合理，」他說。

有趣的是，研究人員還發現對 2023 年和 2024 年創建的資料集的限制急劇增加，這可能是由於學者擔心他們的資料集可能被用於非預期的商業目的。

使用者友善的工具

為了幫助其他人手動閱讀即可獲取此信息，研究人員建立了數據來源瀏覽器。除了根據某些標準對數據集進行排序和過濾之外，該工具還允許用戶下載數據來源卡，該卡提供數據集特徵的簡潔、構造概述。

Mahari 說：“我們希望這不僅是為了了解情況，還可以幫助人們對他們正在訓練的數據做出更明智的選擇。”

未來，研究人員希望擴大他們的分析範圍，以調查多模態資料（包括視訊和語音）的資料來源。他們還希望研究作為資料來源的網站上的服務條款如何在資料集中得到回應。

在擴大研究範圍的同時，他們也與監管機構聯繫，他們的發現以及有關資料討論的獨特版權影響。

「當人們發布這些數據集時，我們從一開始就需要數據來源和透明度，以便其他人更容易獲得這些反饋，」朗普雷說。