數(shù)據(jù)隱私擔(dān)憂上升，長文本能力待改善。

時隔一年盛夏，中國AI大模型測評報告再度來襲。

7月10日，在2025貝殼財經(jīng)年會主題論壇“建設(shè)‘開源’之都：智AI未來，生態(tài)共澎湃”上，新京報AI研究院聯(lián)合中國經(jīng)濟傳媒協(xié)會發(fā)布第二期《中國AI大模型測評報告——大模型賦能傳媒行業(yè)使用與滿足研究》（下稱：報告）。

報告顯示，與去年相比，在媒體工作中使用過大模型的受訪者比例提升22.9個百分點至96.27%。此外，約半數(shù)受訪者經(jīng)常使用，約八成受訪者高度認同大模型提升了媒體工作效率。不過，遇到大模型錯誤或偏見的受訪者比例同樣升高，約96%的受訪者在一周內(nèi)至少有一天遇到錯誤或偏見的情況，增加了約7個百分點。

因幻覺問題產(chǎn)生虛假新聞成為受訪者最擔(dān)憂的問題。相比之下，擔(dān)憂數(shù)據(jù)隱私問題的受訪者比例明顯上升9.17個百分點，達到約95.6%。這也意味著，在大模型應(yīng)用時代，媒體從業(yè)者應(yīng)提高把關(guān)能力，對大模型相關(guān)報道保持審慎態(tài)度。

今年報告通過對8款主流大模型產(chǎn)品在五個核心維度16道題目的嚴格測試與專家評審，揭示了當(dāng)前大模型在媒體實際工作場景中的能力現(xiàn)狀與差異。測評結(jié)果顯示，通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績，分別位列總分榜第一至第四位，這些大模型均背靠“大廠”。

報告首次在傳媒方向能力測評維度中引入倫理判斷。在實際測評中，騰訊元寶、文心一言兩個大模型產(chǎn)品明顯被提示詞“帶偏”并在回答中爆粗口。這一報告追蹤大模型長文本能力一年有余，雖然顯現(xiàn)出進步趨勢，但整體難言滿意。相對而言，大模型在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。

使用大模型受訪者比例提升22.9個百分點，大模型多模態(tài)能力待升級

今年傳媒行業(yè)大模型使用與滿足問卷調(diào)查，共回收261份有效問卷，問卷調(diào)查發(fā)現(xiàn)，96.27%的受訪者在媒體工作中使用過人工智能大模型技術(shù)，與去年調(diào)查時相比提升了22.9個百分點。

各年齡段使用大模型的人數(shù)比例均有所上升。其中，45歲以上受訪者增幅最高，比去年增加41.98個百分點至95.83%。在兩次調(diào)查中，均為26歲至35歲的受訪者最愛用大模型，今年這類人數(shù)比例達97.37%。

報告認為，大模型技術(shù)的傳媒行業(yè)應(yīng)用速度符合創(chuàng)新擴散理論，目前在S型曲線中正處于加速增長階段。而26歲至35歲且使用過大模型的受訪者，可視為“創(chuàng)新者”或“早期采用者”，在這類從業(yè)者影響下，大模型傳媒行業(yè)應(yīng)用有望進入加速擴散階段。

大模型技術(shù)已高頻率融入日常媒體工作。問卷調(diào)查顯示，約半數(shù)受訪者經(jīng)常使用，低頻率使用（即：很少使用、完全不使用）的受訪者僅占7.74%。

約八成受訪者高度認同大模型提升了媒體工作效率。其中，56.13%的受訪者從大模型中獲得了適量幫助，人數(shù)占比最高；25.16%的受訪者認為大模型非常有幫助。這兩類受訪者比例與去年調(diào)查時相比，都上升了10個百分點左右。

受訪者僅對“利用多模態(tài)能力制作多媒體素材（如視頻、圖片等）”這一功能的滿意度處于中等偏下水平（即：一般、不太滿意、非常不滿意）。在滿足媒體工作需要方面，大模型多模態(tài)能力仍需努力。

在生成媒體工作所需內(nèi)容時，大模型仍然會“說”假話。相比去年，今年調(diào)查中遇到大模型錯誤或偏見的受訪者比例增高，約96%的受訪者在一周內(nèi)至少有一天遇到錯誤或偏見的情況，增加約7個百分點。

今年問卷調(diào)查中，因幻覺問題產(chǎn)生虛假新聞成為受訪者最擔(dān)憂的問題，占比高達99.37%。大模型應(yīng)用時代對媒體從業(yè)者把關(guān)能力提出更高要求。

與去年相比，擔(dān)憂數(shù)據(jù)隱私問題的受訪者比例明顯上升，約95.6%，增加9.17個百分點，增幅最高。訓(xùn)練數(shù)據(jù)侵權(quán)、深度偽造詐騙等事件頻繁引發(fā)關(guān)注，提高公眾對這類技術(shù)風(fēng)險認識的同時，也可能反向加劇公眾對技術(shù)失控的焦慮。傳媒行業(yè)有責(zé)任對大模型技術(shù)應(yīng)用保持審慎態(tài)度，也應(yīng)該通過媒體監(jiān)督推動大模型技術(shù)道德化、規(guī)范化。

測評首次引入倫理判斷，有產(chǎn)品“跑偏”

此次大語言模型傳媒能力測評分別考查了8款主流大模型的文本生成、長文本總結(jié)、語言翻譯、倫理判斷與事實核查、媒體信息檢索能力，并最終形成排名。

報告顯示，在8款大模型中，通義、訊飛星火、文心一言、騰訊元寶（使用混元大模型）位列“上半?yún)^(qū)”，總分均在7500分以上，這些大模型均背靠“大廠”。

其中，通義和文心一言的綜合實力較強，每一個細分維度的得分均高于1500?？拼笥嶏w作為在教育領(lǐng)域耕耘已久的人工智能公司，在翻譯一項的測評上表現(xiàn)優(yōu)異；DeepSeek、Kimi和智譜清言三家大模型得分相對較低，主要是因為“長文本總結(jié)”能力拉開了分差，在實際測評中對上傳的一些文件無法完整閱讀，導(dǎo)致其在客觀題中顯著降低了分值。

今年測評首次引入了倫理判斷。結(jié)果顯示，通義、文心一言、豆包和DeepSeek得分均在1500分以上，分別位列第一至第四位，騰訊元寶則墊底。針對情感關(guān)系中“越界”問題，大多數(shù)大模型都進行了倫理方面的提醒，如不可進行感情操控，體現(xiàn)了大模型具有一定的價值判斷。不過，在測評中，騰訊元寶和文心一言則被問題“帶偏”，并在回答中爆粗口，低分也被拉低。

測評發(fā)現(xiàn)，大模型的長文本能力雖然有所進步，但整體難言令人滿意。首先是容量問題，在“上傳兩份財報并進行對比”的測試題目中，DeepSeek、Kimi、智譜清言分別只能上傳文件的18%、52%、41.75%。其次，對于長文本的搜索能力，8 款大模型中僅通義和文心一言按測試要求精準找到了“藏”在長文本中的文章。

報告認為，大模型在媒體行業(yè)的應(yīng)用潛力巨大，尤其在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。頭部“大廠”模型憑借資源和技術(shù)積累，在綜合能力和穩(wěn)定性上優(yōu)勢明顯。

然而，傳媒行業(yè)使用大模型面臨的挑戰(zhàn)依然嚴峻，包括虛假信息識別能力亟待提升，以避免傳播誤導(dǎo)；長文本處理的容量限制和成本問題制約了實用價值；倫理安全防線需持續(xù)加固，防止被惡意誘導(dǎo)；文本生成的深度和專業(yè)性仍需向資深媒體人的水準看齊。

新京報貝殼財經(jīng)記者韋英姿羅亦丹韋博雅

編輯王進雨

校對柳寶慶

14 +1

微博

微信

中國AI大模型測評報告出爐，8款大模型首測倫理判斷能力

我要評論

熱點

最新

熱議

中國AI大模型測評報告出爐，8款大模型首測倫理判斷能力

我要評論

熱點

最新

熱議

中國AI大模型測評報告出爐，8款大模型首測倫理判斷能力