時隔一年盛夏,中國AI大模型測評報告再度來襲。


7月10日,在2025貝殼財經(jīng)年會主題論壇“建設(shè)‘開源’之都:智AI未來,生態(tài)共澎湃”上,新京報AI研究院聯(lián)合中國經(jīng)濟傳媒協(xié)會發(fā)布第二期《中國AI大模型測評報告——大模型賦能傳媒行業(yè)使用與滿足研究》(下稱:報告)。


報告顯示,與去年相比,在媒體工作中使用過大模型的受訪者比例提升22.9個百分點至96.27%。此外,約半數(shù)受訪者經(jīng)常使用,約八成受訪者高度認同大模型提升了媒體工作效率。不過,遇到大模型錯誤或偏見的受訪者比例同樣升高,約96%的受訪者在一周內(nèi)至少有一天遇到錯誤或偏見的情況,增加了約7個百分點。


因幻覺問題產(chǎn)生虛假新聞成為受訪者最擔(dān)憂的問題。相比之下,擔(dān)憂數(shù)據(jù)隱私問題的受訪者比例明顯上升9.17個百分點,達到約95.6%。這也意味著,在大模型應(yīng)用時代,媒體從業(yè)者應(yīng)提高把關(guān)能力,對大模型相關(guān)報道保持審慎態(tài)度。


今年報告通過對8款主流大模型產(chǎn)品在五個核心維度16道題目的嚴格測試與專家評審,揭示了當(dāng)前大模型在媒體實際工作場景中的能力現(xiàn)狀與差異。測評結(jié)果顯示,通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績,分別位列總分榜第一至第四位,這些大模型均背靠“大廠”。


報告首次在傳媒方向能力測評維度中引入倫理判斷。在實際測評中,騰訊元寶、文心一言兩個大模型產(chǎn)品明顯被提示詞“帶偏”并在回答中爆粗口。這一報告追蹤大模型長文本能力一年有余,雖然顯現(xiàn)出進步趨勢,但整體難言滿意。相對而言,大模型在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。


使用大模型受訪者比例提升22.9個百分點,大模型多模態(tài)能力待升級


今年傳媒行業(yè)大模型使用與滿足問卷調(diào)查,共回收261份有效問卷,問卷調(diào)查發(fā)現(xiàn),96.27%的受訪者在媒體工作中使用過人工智能大模型技術(shù),與去年調(diào)查時相比提升了22.9個百分點。



各年齡段使用大模型的人數(shù)比例均有所上升。其中,45歲以上受訪者增幅最高,比去年增加41.98個百分點至95.83%。在兩次調(diào)查中,均為26歲至35歲的受訪者最愛用大模型,今年這類人數(shù)比例達97.37%。


報告認為,大模型技術(shù)的傳媒行業(yè)應(yīng)用速度符合創(chuàng)新擴散理論,目前在S型曲線中正處于加速增長階段。而26歲至35歲且使用過大模型的受訪者,可視為“創(chuàng)新者”或“早期采用者”,在這類從業(yè)者影響下,大模型傳媒行業(yè)應(yīng)用有望進入加速擴散階段。


大模型技術(shù)已高頻率融入日常媒體工作。問卷調(diào)查顯示,約半數(shù)受訪者經(jīng)常使用,低頻率使用(即:很少使用、完全不使用)的受訪者僅占7.74%。


約八成受訪者高度認同大模型提升了媒體工作效率。其中,56.13%的受訪者從大模型中獲得了適量幫助,人數(shù)占比最高;25.16%的受訪者認為大模型非常有幫助。這兩類受訪者比例與去年調(diào)查時相比,都上升了10個百分點左右。


受訪者僅對“利用多模態(tài)能力制作多媒體素材(如視頻、圖片等)”這一功能的滿意度處于中等偏下水平(即:一般、不太滿意、非常不滿意)。在滿足媒體工作需要方面,大模型多模態(tài)能力仍需努力。


在生成媒體工作所需內(nèi)容時,大模型仍然會“說”假話。相比去年,今年調(diào)查中遇到大模型錯誤或偏見的受訪者比例增高,約96%的受訪者在一周內(nèi)至少有一天遇到錯誤或偏見的情況,增加約7個百分點。



今年問卷調(diào)查中,因幻覺問題產(chǎn)生虛假新聞成為受訪者最擔(dān)憂的問題,占比高達99.37%。大模型應(yīng)用時代對媒體從業(yè)者把關(guān)能力提出更高要求。


與去年相比,擔(dān)憂數(shù)據(jù)隱私問題的受訪者比例明顯上升,約95.6%,增加9.17個百分點,增幅最高。訓(xùn)練數(shù)據(jù)侵權(quán)、深度偽造詐騙等事件頻繁引發(fā)關(guān)注,提高公眾對這類技術(shù)風(fēng)險認識的同時,也可能反向加劇公眾對技術(shù)失控的焦慮。傳媒行業(yè)有責(zé)任對大模型技術(shù)應(yīng)用保持審慎態(tài)度,也應(yīng)該通過媒體監(jiān)督推動大模型技術(shù)道德化、規(guī)范化。


測評首次引入倫理判斷,有產(chǎn)品“跑偏”


此次大語言模型傳媒能力測評分別考查了8款主流大模型的文本生成、長文本總結(jié)、語言翻譯、倫理判斷與事實核查、媒體信息檢索能力,并最終形成排名。


報告顯示,在8款大模型中,通義、訊飛星火、文心一言、騰訊元寶(使用混元大模型)位列“上半?yún)^(qū)”,總分均在7500分以上,這些大模型均背靠“大廠”。


其中,通義和文心一言的綜合實力較強,每一個細分維度的得分均高于1500??拼笥嶏w作為在教育領(lǐng)域耕耘已久的人工智能公司,在翻譯一項的測評上表現(xiàn)優(yōu)異;DeepSeek、Kimi和智譜清言三家大模型得分相對較低,主要是因為“長文本總結(jié)”能力拉開了分差,在實際測評中對上傳的一些文件無法完整閱讀,導(dǎo)致其在客觀題中顯著降低了分值。



今年測評首次引入了倫理判斷。結(jié)果顯示,通義、文心一言、豆包和DeepSeek得分均在1500分以上,分別位列第一至第四位,騰訊元寶則墊底。針對情感關(guān)系中“越界”問題,大多數(shù)大模型都進行了倫理方面的提醒,如不可進行感情操控,體現(xiàn)了大模型具有一定的價值判斷。不過,在測評中,騰訊元寶和文心一言則被問題“帶偏”,并在回答中爆粗口,低分也被拉低。


測評發(fā)現(xiàn),大模型的長文本能力雖然有所進步,但整體難言令人滿意。首先是容量問題,在“上傳兩份財報并進行對比”的測試題目中,DeepSeek、Kimi、智譜清言分別只能上傳文件的18%、52%、41.75%。其次,對于長文本的搜索能力,8 款大模型中僅通義和文心一言按測試要求精準找到了“藏”在長文本中的文章。


報告認為,大模型在媒體行業(yè)的應(yīng)用潛力巨大,尤其在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。頭部“大廠”模型憑借資源和技術(shù)積累,在綜合能力和穩(wěn)定性上優(yōu)勢明顯。


然而,傳媒行業(yè)使用大模型面臨的挑戰(zhàn)依然嚴峻,包括虛假信息識別能力亟待提升,以避免傳播誤導(dǎo);長文本處理的容量限制和成本問題制約了實用價值;倫理安全防線需持續(xù)加固,防止被惡意誘導(dǎo);文本生成的深度和專業(yè)性仍需向資深媒體人的水準看齊。


新京報貝殼財經(jīng)記者 韋英姿 羅亦丹 韋博雅


編輯 王進雨


校對 柳寶慶