WordPress
如今,大型語言模型(LLM)所展現的卓越能力是由大量數據推動的,這些數據賦予了它們廣泛的人類知識。動力的重要燃料。
然而,一個關鍵問題是高品質語言料庫的快速枯竭——中國LLM企業面臨嚴峻的挑戰。
例如,中國工程院士高文就強調,目前全球用於培養LLM的約500億個數據點的數據集中,中國語料庫僅佔1.3%。 、論文、報紙等文件中存在大量高價值語料資料尚未開發,由於其格式複雜以及當前大模型訓練能力的限制,難以處理和提取。
解決中國數據不足和品質低下的問題以及管理多樣化的數據類型仍然是企業面臨的重大挑戰。規模模型加速器,旨在增強大型模型的預訓練、語料庫開發、實際實作等流程。
該加速器名為「TextIn」智慧檔案處理平台,可快速解析長檔案中的非格式化資料並重建正確的閱讀順序。
在訓練的初始階段,TextIn的文件解析引擎克服了書籍、論文、研究報告和其他文件中的佈局解析障礙,為模型訓練和應用提供了優化的輸出。模型,用於解決通常與法學碩士相關的幻覺問題。
Intsig的方法從源頭開始,利用標準化平台進行語料庫建置。
處理複雜的語料庫
Intsig 的 TextIn 平台設計有三個主要功能:檔案解析、嵌入和稱為 OpenKIE 的工具。
例如,考慮銀行託管人的基金報表。著不準確。
TextIn的文檔解析功能可以在短短1.5秒內處理一頁文檔,不僅速度快,而且可以智慧恢復文檔的閱讀順序。圖、折線圖、圓餅圖、雷達圖等十多種常見圖表類型恢復為JSON 或Markdown 格式。
解析後的數據語料報告易懂,讓大型模型更能理解圖表數據,學習商業、學術等論文專業文件中的數學運算。
大型兒模型經常在專業詢問中經常遇到困難,出現幻覺,如果處理不當,可能會造成嚴重的後果。性。
文本中的嵌入模型ACGE文字嵌入模型就像指南針一樣,快速搜尋全文尋找訊息,提取有效的文字特徵,跨越對漢語資料的廣泛學習,準確完成分類和重要任務。
與其他開源模型相比,ACGE模型體積更小,佔用資源更少,其1024的輸入文字長度可以滿足大多數場景的需求。遺忘針對此問題,ACGE模型採用持續學習的訓練方式,支援可變的輸出變量,讓企業可以根據具體場景配置資源,進而提升模型系統執行與使用者體驗。
對於實際應用來說,在引入提供資料庫、使用分散式系統和開源解決方案之前的公司可能會隨著語料庫的增長而很快遇到瓶頸。模型的引入顯著提高了整體文件處理速度,並且在資料順序的情況下,可以消除一些幻覺,多文檔元素識別並解決佈局分析問題。
OpenKIE是一個從影像檔案擷取資訊的工具,包括欄位擷取、清單擷取和要素擷取模式。應用或匯入其他系統。
例如,在LLM文件處理場景中,合合資訊與百川智慧合作,解決了長期存在的多文件元素識別和版本面分析問題,將百頁文件的處理速度提升了十倍以上。
合合資訊智能事業部總經理唐琪告訴 36氪 目前TextIn平台介紹金融、醫藥、媒體等領域多達47個場景,相容於3,200多種文件類型。
適用於多種場景的通用工程能力
目前,大模型能力的每次提升都受到多種數據的關鍵影響,包括預先數據的數量、品質、欄位類型等。提供基礎設施服務的第三方公司,例如Intsig的TextIn平台或亞馬遜的Textract文字抓取服務。和證券公司等垂直案例。
唐告訴 36氪 “企業對供應商的選擇標準主要集中在三個維度:速度、穩定性、準確性。”
- 速度:文件解析引擎必須很快。
- 穩定性:平台必須能夠處理大量複雜的語言資料庫,例如PDF文件和表單。
- 準確度:平台應將文件資訊準確地傳送到表格中。
目前,缺乏高品質、精選的語料庫是一個主要問題,「特別是對於中國數據而言,更是稀缺,」唐說。集,如 Common Crawl、RedPajama、BooksCorpus、The Pile 和 ROOT 等。
預訓練階段語料資料的處理關鍵,從獲取海量資料轉向獲取高價值資料。
唐就經歷過這樣的情況。包括各種款式的價格差異和庫存問題,這是傳統OCR模型無法處理的。
這只是場景下的一個微妙問題。
因此,Intsig在產品設計階段做了幾件事。產業的特定產業針對常見挑戰,提供適合使用者需求的產品設計解決方案。
其次,它強調產品化,不僅提供通用場景的API,還提供一系列基於工具的產品。中小企業、個人開發者來說尤其有利。
在當前大模型轉型的趨勢下,以數據為中心的重視得到了從事大模型研究和應用的行業人士的廣泛認可。 、邏輯佈局和文件問答等領域。
展望未來,合力繪製針對金融、醫療等垂直領域的專業產品。
KrASIA Connection 收錄了最初由 36Kr 發布的經過翻譯和改編的內容。 文章 黃楠為36氪撰寫。