智普AI將類似GPT-4o的模型引入中國，並整合“視訊通話”

網站建置

智浦AI正在加速爭奪多模態人工智能的霸主地位。但《《青影》從第一天起就免費對外開放。

一個月後的8月29日，智浦在國際知識發現與資料探勘大會（KDD）上首次推出了類似GPT-4o的模型“Her”，引起了轟動。正體現了這一點，推出了新的「視訊通話」功能，讓人工智慧更貼近人類的溝通。

青岩也時時刻刻關注流行趨勢。 黑神話：悟空，它能夠很快地理解內容並且可以與用戶聊天。

除了這些更新之外，Zhipu還推出了新的多模態模型套件，其中包括可以理解影片和網頁的視覺模型GLM-4V-Plus，以及文字到圖像模型CogView-3-Plus。

語言基礎模型GLM也升級為GLM-4-Plus，該模型能夠處理長文本並輕鬆解決複雜的數學問題。

在此之前，GPT-4o的情緒預測能力讓用戶驚嘆不已。

也就是說，青燕的視訊通話功能為中國對終身學習的關注量身訂做了實際應用。

例如，它可以充當私人英語導師。

在家裡，青岩也充當私人助理。

雖然視訊通話記錄還不能保存，但使用輕言就像是家教、作業幫手、廚房幫手合而為一。

在KDD上，智普AI推出了更新的模型套件，包括新一代的基礎語言模型和增強的多模態家族：GLM-4V-Plus和CogView-3-Plus。

GLM-4-Plus 的意義在於，它是利用高品質的合成資料進行訓練的。語言理解能力可與GPT-4o和Llama3.1-405B相媲美。

綜合基準
模型	橫式工作台	MMLU	數學	GP品質保證	LCB	國家商業銀行	IFE值
克勞德 3.5 十四行詩	80.7	88.3	71.1	56.4	49.8	53.1	80.6
羊駝3.1 405B	60.7	88.6	73.8	50.1	39.4	50	83.9
雙子座1.5專業版	74.7	85.9	67.7	46.2	33.6	42.3	74.4
GPT-4o	83.8	88.7	76.6	51.0	45.5	52.3	81.9
GLM-4-Plus	83.2	86.8	74.2	50.7	45.8	50.4	79.5
GLM-4-Plus/GPT-4o	99%	98%	97%	99%	101%	96%	97%
GLM-4-Plus/克勞德 3.5 十四行詩	103%	98%	104%	85%	92%	95%	99%

在長文字功能方面，GLM-4-Plus 的表現與 GPT-4o 和 Claude 3.5 Sonnet 相當。

長文本建模基準
模型	長椅聊天	InfiniteBench/EN.MC	統治者
米斯特拉爾-123B	8.2	38.9	80.5
美洲駝405B	8.6	83.4	91.5
克勞德十四行詩 3.5	8.6	79.5	–
雙子座1.5專業版	8.6	80.9	95.8
GPT-4o	9.0	82.5	–
GLM-4-Plus	8.8	85.1	93.0
GLM-4-Plus/GPT-4o	98%	103%	–
GLM-4-Plus/克勞德 3.5 十四行詩	102%	107%	–

此外，交叉採用近端策略優化（PPO）（一種增強複雜任務決策的方法），GLM-4-Plus顯著提高了其數據和程序碼推理能力，更好地符合人類偏好。

GLM-4-Plus 處理100萬個代幣的成本為50元人民幣（7美元），與百度最新的大型模型Ernie 4.0 Turbo相比，輸入成本為30元人民幣（4.2美元），處理成本為60人民幣（8.4美元）。

但真正具有初始性的是它的多種聯運能力。

世銀能力基準
模型	OCRBench	微機電系統	MM星	MMV	MMMU-Val	人工智慧二維碼	SEEDBench-IMG
克勞德 3.5 十四行詩	第788章	1920年	78.5	62.2	66.0	80.2	72.2
雙子座1.5專業版	第754章	2110.6	73.9	59.1	64.0	79.1	–
GPT-4V-1106	516	1771.5	73.8	49.7	63.6	75.9	72.3
GPT-4V-0409	第656章	2070.2	79.8	56.0	67.5	78.6	73.0
GPT-4o	第736章	2310.3	80.5	69.1	69.2	84.6	77.1
GLM-4V-Plus	第833章	2274.7	82.4	69.9	53.3	83.6	77.4
GLM-4-Plus/GPT-4o	113%	99%	102%	101%	99%	99%	100%
GLM-4-Plus/克勞德 3.5 十四行詩	106%	118%	105%	106%	81%	104%	107%

新的視覺模型 GLM-4V-Plus 現在可以理解影片和網頁，比其前身有重大改進。

例如，上傳智浦AI主頁的螢幕截圖，GLM-4V-Plus可以立即將其轉換為HTML程式碼，幫助用戶快速重新建立網站。

與典型的視頻理解模型不同，GLM-4V-Plus不僅能理解複雜的視頻，而且具有時間感。智浦AI開放平台尚不支援影片上傳此功能。

GLM-4V-Plus 具有令人印象深刻的視覺功能，但它在多輪對話和文字方面理解落後，這意味著它在這方面還無法與 GPT-4o 相提並論。

影片理解能力基準
模型	MVBench	LVBench	時間品質保證	多輪對話	中英文支持
LLaVA-NeXT-視頻	50.6	32.2	❌	❌	❌
聚乳酸	58.1	26.1	❌	❌	❌
LLaVA-OneVision	59.4	27.0	❌	✅️	✅️
GPT-4o	47.8	34.7	❌	✅	✅️
雙子座1.5專業版	52.6	33.1	✅️	✅️	✅️
GLM-4V-Plus	71.2	38.3	✅️	✅️	✅️
GLM-4-Plus/GPT-4o	149%	110%	–	–	–
GLM-4-Plus/Gemini 1.5 Pro	135%	116%	–	–	–

在 KDD 上，智普 AI 也推出了下一代文字轉圖像模型 CogView-3-Plus。

文字到圖像生成能力基準
模型	剪輯樂譜	AES 分數	SV高壓2	圖像獎勵	選擇性份額	MPS
SD3-中型	0.2655	5.52	0.2774	0.2144	21.31	10.57
科勒斯	0.2726	6.14	0.2833	0.5482	22.14	11.86
達勒-3	0.3237	5.95	0.2904	0.9734	22.51	11.95
MidJourney-V5.2	0.3144	6.12	0.2813	0.8169	22.74	12.40
中途-V6	0.3276	5.95	0.2798	0.8351	22.78	12.34
鉛開發	0.3155	6.04	0.2881	1.0333	22.96	10.12
CogView-3-Plus完整版（20秒）	0.3177	5.90	0.2963	0.9797	22.53	12.55
CogView-3-Plus Lite (5s)	0.3119	5.91	0.2843	0.9384	22.52	12.48