人工智能引發了一場網路爬行之戰

2024 年 9 月 1 日

分類

全部新聞

標籤

客製化系統

大多數人認為生成式人工智慧會變得越來越好；但事實並非如此。所訓練的大量資料集，而這些資料集並非由OpenAI 和Anthropic 等領先人工智慧公司擁有的母國資料所目前的。發布過影片、在Reddit貼文上發表評論或在網路上聚會任何其他事情的人。

人工智能研究人員志願者團體數據源自倡議（Data Provenance Initiative）的新報告揭示了所有這些數據正在發生的情況。感知受到生成式人工智慧威脅的組織正在採取措施隔離他們的資料。 IEEE 優勢 與資料來源計畫的首席研究員 Shayne Longpre 討論了該報告對人工智能公司的影響。

謝恩朗普雷談：

網站如何阻止網路爬蟲，以及為什麼

其數據的消失對人工智慧公司意味著什麼

綜合數據、熱門數據以及接下來會發生什麼

網站用於阻止網路爬蟲的技術並不新鮮——機器人修復協議 它於1995年推出。

客製化系統一名身穿藍領襯衫、雙臂交叉在胸前的男子的側臉謝恩·朗普雷

謝恩朗普雷： Robots.txt是一個機器競爭力的文件，爬蟲（在網路中導航並記錄所見內容的機器人）使用它來確定是否爬行網站的某些部分。，它成為事實的標準。來的進行操作的，而網站也希望這樣做。

接下來讓我談談對於理解這一點非常重要的一系列訓練。像網路一樣提供公共規模的訓練。 [data sets composed of] 網路爬行。的供應鏈。

但去年，許多網站開始使用robots.txt來機器人，尤其是廣告投放和付費專區盈利的網站，例如新聞和藝術家。因此正在採取措施保護他們的資料。

當網站設定robots.txt限制時，就像設定禁止入侵標誌一樣，對嗎？

長普： 人工智慧對robots.txt是機器的優勢，但似乎不具備法律執行性。可以說，「你可以使用這些數據，但不能用於商業用途。」但在robots.txt 中，您必須單獨指定爬蟲，然後說明您或禁止訪問它們網站的哪些部分。的負擔，需要在數千個不同的爬蟲中找出哪些爬蟲符合他們想要的用途，哪些對應他們不喜歡的用途。

我們是否知道爬蟲通常是否遵守 robots.txt 的限制？

長普： 許多大公司都有明確說明其規則或程序的文件。不是無論如何，尊重robots.txt並抓取人工網站。非營利組織、記者－他們傾向於尊重robots.txt。

回到頂部

在報告中，您查看了三個經常用於訓練生成式人工智慧係統的訓練資料集，這些資料集都是在過去幾年中跨越網路爬行創建的。確定的已爬網域數量出現了非常顯著的成長。

長普： 我們發現，如果你看特定的一個資料集，讓我們以 2019 年創建非常流行的 C4 為例，在不到一年的時間裡，如果你尊重或堅持偏好，它大約有 5% 的資料已被打敗了底層網站。時網站時（這些是按規模排名的前2000個網站，它們主要是新聞、大型學術網站、社交媒體和提出策劃的高品質網站）——佔資料的25%此後，前2000名的排名已被撤銷這意味著尊重robots.txt的模型的訓練資料正在迅速從高品質新聞、學術網站、論壇和社交媒體轉向更多組織和個人網站以及電子商務和博客。

如果我們要求 ChatGPT 或 Perplexity 的未來版本來回答複雜的問題，並且它從個人博客和購物網站獲取信息，這似乎可能是一個問題。

長普： 意料之中。

但較舊的資料集仍然遺失。

長普： 嗯，持續的數據新鮮度確實很重要。走向的方向，尤其是在美國，圍繞著數據合理使用的訴訟。 紐約時報 對抗 OpenAI 和微軟，但現在有許多變種。

該報告被稱為「危機中的同意」。

長普： 我認為這對資料創建者來說是一場危機，因為很難用現有協議表達他們想要的東西。這些數據變得越來越難以訪問。人和其他人，這最終成為一個問題。

如果這種情況持續限制下去，越來越多的數據受到影響，人工智慧公司能做什麼？

長普： 大公司將直接授權。投入更多資金，並持續訪問用戶生成的有價值的數據來源，例如YouTube、GitHub和Reddit。一個存在問題的行為。

回到頂部

您認為合成資料可以完成這個空白嗎？

長普： 大公司已經在大量使用合成資料。隨著越來越多的生成機器人被允許使用，這些數據可能會更加頻繁地出現在網路介面上。因此品質優良失敗或重複的東西可能會被吸走。

您相信我們是否可能正面臨數據熱點的想法？