研究發現 GPT 應用程式未能揭露資料收集情況

2024 年 8 月 31 日

分類

全部新聞

標籤

網路行銷

研究人員稱，OpenAI GPT 商店中的許多 GPT 應用程式收集數據並促進線上跟踪，違反了 OpenAI 政策。

密蘇裡州聖路易斯華盛頓大學的研究人員最近在四個月的時間內分析了近 120,000 個 GPT 和超過 2,500 個操作（嵌入式服務），發現大量資料收集違反了 OpenAI 的規則，並且在隱私權政策中往往沒有充分記錄。

研究人員 Evin Jaff、Yuhao Wu、Ning Zhu 和 Umar Iqbal 在題為“LLM Apps 的數據暴露：對 OpenAI 的 GPT 的深入調查”的論文中描述了他們的發現。

作者聲稱：“我們的測量表明，隱私政策中省略了對大多數收集的數據類型的披露，只有 5.8% 的行動明確披露了他們的數據收集實踐。”

收集的資料包括密碼等敏感資訊。

華盛頓大學計算機科學三年級博士生 Yuhao Wu 表示：“我們的研究發現了 OpenAI GPT 生態系統中的幾個隱私和安全問題，其他人也注意到了類似的問題。” 登記冊。

「雖然其中一些問題被強調後已經解決，但這些問題的存在表明某些設計決策沒有充分優先考慮安全和隱私。此外，儘管 OpenAI 制定了政策，但缺乏一致的執行，這引發了這些擔憂。

OpenAI 商店於 1 月正式開業，其中包含 GPT，是基於 OpenAI 的 ChatGPT 的生成式預訓練 Transformer (GPT) 模型。執行某些特定功能，例如分析Excel資料或編寫程式碼。

一小部分GPT（超過300 萬個GPT 中的4.6%）實際上完成了操作，它提供了一種將API 服務的格式化資料轉換為接受和發出自然的語言模型語言的方法。操作「將自然語言文字轉換為API呼叫所需的json模式」。

研究的 GPT 中包含來自第三方的大部分操作 (82.9%)。

研究人員表示，“大量的操作收集與用戶的應用程式活動、個人資訊和網頁瀏覽相關的數據。”

「應用程式活動資料由使用者產生的資料（例如，對話和對話中的關鍵字）、操作的偏好或設定（例如，對搜尋結果進行排序的偏好）以及有關平台和其他應用程式的資訊（例如，，嵌入在個人資訊中包括人口統計資料（例如，種族和民族）、PII（例如，電子郵件地址），甚至使用者密碼瀏覽歷史記錄是指與使用者使用GPT 存取的網站相關的資料。

我們是否停下來思考法學碩士實際上是在模擬什麼？
金融科技公司 Klarna 打破不取代員工，以人工智能取代人類
英國教師正在聘請人工智能助理來幫助評分和製定課程計劃
Google 訓練 GenAI 模型即時模擬 Doom 的遊戲引擎

作者觀察到，1%的GPT會收集密碼，雖然顯然是為了方便（至少方便登入），而不是出於惡意。

然而，作者認為，即使這種非對抗性的密碼收集也將增加外洩的風險，因為這些密碼可能會被納入資料中。

「我們發現 GPT 捕獲了用戶密碼，」吳解釋道。「我們沒有調查它們是否被欺騙或破壞欺騙而被捕獲。無論是否存在欺騙，像這樣捕獲的明文密碼和 API 重點始終是重大的安全風險。

「就法學碩士而言，對話中的明文密碼存在被包含在訓練資料中的風險，這可能會導致意外洩露。OpenAI 上想要使用帳戶或類似機制的服務可以使用 OAuth，以便用戶可以連接帳戶，因此，我們認為這至少是開發人員的規避/不良安全實踐。

情況變得更糟。。

事實上，操作嵌入在多個 GPT 中，這可能允許它們跨多個應用程式收集資料並與其他操作共享該資料。

研究人員觀察到，OpenAI 似乎正在關注不合規的 GPT，因為它在 2024 年 2 月 8 日至 5 月 3 日的四個月期間抽取刪除了 2,883 個 GPT。

儘管如此，他們得出的結論是，OpenAI 保持其生態系統發展領先地位的努力還不夠。的控制，也沒有充分隔離Actions的執行，小區在不同Actions之間暴露資料。

「我們的研究結果強調，應用程式和第三方收集了過多的數據，」吳說。強調，這些做法在新興的基於 LLM 的平台上也越來越普遍。

「在我們發現開發人員可以採取行動的情況下，我們會向他們報告。例如，就 GPT 而言，我們懷疑它可能不是由其聲稱的實際服務託管的，因此我們將其報告提供正確的服務部門進行審批。

OpenAI 未回應置評請求。

研究發現 GPT 應用程式未能揭露資料收集情況

相關新聞