客製化系統
大多數人認為生成式人工智慧會變得越來越好;但事實並非如此。所訓練的大量資料集,而這些資料集並非由OpenAI 和Anthropic 等領先人工智慧公司擁有的母國資料所目前的。發布過影片、在Reddit貼文上發表評論或在網路上聚會任何其他事情的人。
人工智能研究人員志願者團體數據源自倡議(Data Provenance Initiative)的新報告揭示了所有這些數據正在發生的情況。感知受到生成式人工智慧威脅的組織正在採取措施隔離他們的資料。 IEEE 優勢 與資料來源計畫的首席研究員 Shayne Longpre 討論了該報告對人工智能公司的影響。
謝恩朗普雷談:
網站用於阻止網路爬蟲的技術並不新鮮——機器人修復協議 它於1995年推出。
謝恩·朗普雷
謝恩朗普雷: Robots.txt是一個機器競爭力的文件,爬蟲(在網路中導航並記錄所見內容的機器人)使用它來確定是否爬行網站的某些部分。 ,它成為事實的標準。來的進行操作的,而網站也希望這樣做。
接下來讓我談談對於理解這一點非常重要的一系列訓練。像網路一樣提供公共規模的訓練。 [data sets composed of] 網路爬行。的供應鏈。
但去年,許多網站開始使用robots.txt來機器人,尤其是廣告投放和付費專區盈利的網站,例如新聞和藝術家。因此正在採取措施保護他們的資料。
當網站設定robots.txt限制時,就像設定禁止入侵標誌一樣,對嗎?
長普: 人工智慧對robots.txt是機器的優勢,但似乎不具備法律執行性。可以說,「你可以使用這些數據,但不能用於商業用途。」但在robots.txt 中,您必須單獨指定爬蟲,然後說明您或禁止訪問它們網站的哪些部分。的負擔,需要在數千個不同的爬蟲中找出哪些爬蟲符合他們想要的用途,哪些對應他們不喜歡的用途。
我們是否知道爬蟲通常是否遵守 robots.txt 的限制?
長普: 許多大公司都有明確說明其規則或程序的文件。 不是 無論如何,尊重robots.txt並抓取人工網站。非營利組織、記者-他們傾向於尊重robots.txt。
回到頂部
在報告中,您查看了三個經常用於訓練生成式人工智慧係統的訓練資料集,這些資料集都是在過去幾年中跨越網路爬行創建的。確定的已爬網域數量出現了非常顯著的成長。
長普: 我們發現,如果你看特定的一個資料集,讓我們以 2019 年創建非常流行的 C4 為例,在不到一年的時間裡,如果你尊重或堅持偏好,它大約有 5% 的資料已被打敗了底層網站。時網站時(這些是按規模排名的前2000個網站,它們主要是新聞、大型學術網站、社交媒體和提出策劃的高品質網站)——佔資料的25%此後,前2000名的排名已被撤銷這意味著尊重robots.txt的模型的訓練資料正在迅速從高品質新聞、學術網站、論壇和社交媒體轉向更多組織和個人網站以及電子商務和博客。
如果我們要求 ChatGPT 或 Perplexity 的未來版本來回答複雜的問題,並且它從個人博客和購物網站獲取信息,這似乎可能是一個問題。
長普: 意料之中。
但較舊的資料集仍然遺失。
長普: 嗯,持續的數據新鮮度確實很重要。走向的方向,尤其是在美國,圍繞著數據合理使用的訴訟。 紐約時報 對抗 OpenAI 和微軟,但現在有許多變種。
該報告被稱為「危機中的同意」。
長普: 我認為這對資料創建者來說是一場危機,因為很難用現有協議表達他們想要的東西。這些數據變得越來越難以訪問。人和其他人,這最終成為一個問題。
如果這種情況持續限制下去,越來越多的數據受到影響,人工智慧公司能做什麼?
長普: 大公司將直接授權。投入更多資金,並持續訪問用戶生成的有價值的數據來源,例如YouTube、GitHub和Reddit。一個存在問題的行為。
回到頂部
您認為合成資料可以完成這個空白嗎?
長普: 大公司已經在大量使用合成資料。隨著越來越多的生成機器人被允許使用,這些數據可能會更加頻繁地出現在網路介面上。因此品質優良失敗或重複的東西可能會被吸走。
您相信我們是否可能正面臨數據熱點的想法?
長普: 那裡有很多未開發的數據。 [optical character recognition]許多數據被鎖定在政府、新生兒管道、非格式化或無法提取的格式(如 PDF)中。所獲得的數據而言,許多公司開始碰壁並轉向合成數據。
這裡的趨勢線是什麼?
長普: 我們預計 robots.txt 和服務的限制將會增加。壓力等。
您希望看到行業內標準化方面發生什麼,使網站更容易表達有關攀登行的偏好?
長普: 在資料省計畫中,我們絕對希望新的標準能夠出現並被採用,以允許創作者以更精細的方式表達他們對數據使用的偏好。 ,也是雙贏的。 [AI] 公司自己可以提出這個結論並採取行動。
另外,並非在所有情況下都不應該尊重偏好。平等,也不是所有用途都生來平等。
回到頂部