四虎永久在线精品免费,一亚洲乱亚洲乱妇23p

飛象網(wǎng)訊 （一飛/文）12月21日，OpenAI 發(fā)布了具有超強推理能力的大模型o3，引起了業(yè)內(nèi)對大模型推理能力的廣泛討論和深入研究。o3的發(fā)布也帶來了三個引人深思的問題：市面上主流大模型的推理能力究竟如何？在真實應(yīng)用場景中，是否總是需要具有極強推理能力的模型？在實際應(yīng)用中，如何根據(jù)應(yīng)用需求選擇合適參數(shù)量的大模型而避免“用大炮打蚊子”，以獲得最高性價。

中國聯(lián)通借鑒動物智能演化規(guī)律，結(jié)合大模型實際落地應(yīng)用實踐，在業(yè)界首次提出大模型能力邊界量化基準(zhǔn)，定量分析主流語言大模型能力邊界，詳細(xì)刻畫模型參數(shù)量、模型能力與應(yīng)用場景之間的關(guān)系，為語言大模型的應(yīng)用選型提供理論和經(jīng)驗指導(dǎo)，將有助于降低語言大模型應(yīng)用門檻，促進大模型普惠化。相關(guān)研究成果以<What is the Best Model? Application-Driven Evaluation for Large Language Models>為題發(fā)表在自然語言處理權(quán)威會議NLPCC2024上，相應(yīng)的評估基準(zhǔn)已向業(yè)界開源，獲得業(yè)界廣泛認(rèn)可。

論文鏈接：https://arxiv.org/abs/2406.10307

評估基準(zhǔn)：https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

借鑒動物智能演化規(guī)律

一般來說，動物的腦神經(jīng)元越多，腦容量越大，智力水平就越高。另外，不同智力水平的動物擅長的任務(wù)種類和難度也各不相同，即使小如烏鴉的大腦，也可以完成“烏鴉喝水”這樣的任務(wù)。

動物智能演化規(guī)律

相似地，在語言大模型中，擴展法則指出模型參數(shù)量越大，模型能力越強，相應(yīng)的算法消耗和應(yīng)用成本也越高。然而這樣的定性分析是不夠的，大模型能力邊界定量刻畫的缺乏，導(dǎo)致在實際應(yīng)用中經(jīng)常出現(xiàn)“高射炮打蚊子”的情況。因此對大模型能力邊界的定量刻畫是必要且緊迫的。

構(gòu)建大模型能力評估基準(zhǔn)

中國聯(lián)通研究團隊從實際應(yīng)用場景維度出發(fā)，對語言大模型主要能力進行歸納、梳理和總結(jié)，建立了應(yīng)用驅(qū)動的大語言模型能力評估基準(zhǔn)。該評估基準(zhǔn)包括文本生成、理解、關(guān)鍵信息抽取、邏輯推理、任務(wù)規(guī)劃等5大類能力，又細(xì)分為27類子能力。

語言大模型主要能力

針對27類子能力，中國聯(lián)通研究團隊構(gòu)建了相應(yīng)的評測任務(wù)和由易、中、難三個難度等級的678個問答對構(gòu)成的評估數(shù)據(jù)集。為避免數(shù)據(jù)泄露問題，所有數(shù)據(jù)均由專家團隊人工編寫。

應(yīng)用驅(qū)動的語言大模型能力評估數(shù)據(jù)集

量化主流大模型能力邊界

團隊設(shè)計了專家評估和基于大模型的自動化評估方法，對同一家族8個不同規(guī)模的模型(0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B, 110B)進行測試和評估，避免模型架構(gòu)、訓(xùn)練數(shù)據(jù)等非模型參數(shù)量因素對評估結(jié)果產(chǎn)生干擾，得到了不同參數(shù)量模型在各種任務(wù)上的可靠的評估結(jié)果。從下圖的評測結(jié)果可以看出，不同參數(shù)量模型能力不同，模型參數(shù)量越大，模型能力越強，對于復(fù)雜任務(wù)需要使用大參數(shù)量模型。

不同參數(shù)量模型在各類任務(wù)中的準(zhǔn)確率

依據(jù)能力要求確定模型參數(shù)量

根據(jù)語言大模型能力邊界測評結(jié)果，團隊提出了一種簡單可行的模型選型方法，指導(dǎo)模型落地應(yīng)用時的參數(shù)選型�？偟膩碚f，針對不同任務(wù)，任務(wù)難度越高要求參數(shù)越大；針對同一任務(wù)，參數(shù)越大模型性能越好。具體地，可依據(jù)某項任務(wù)對模型性能的底線要求來選擇相應(yīng)參數(shù)的規(guī)模，以圖中任務(wù)為例：在用戶需求準(zhǔn)確率為80%的前提下，對于拼寫錯誤校正任務(wù)，14B以上模型可獲90分以上；對于邏輯錯誤檢測任務(wù)，110B以上模型可達(dá)90分以上；如果同時應(yīng)用多個任務(wù)，先為每個任務(wù)選擇合適的模型，再選擇其中參數(shù)量最大的模型即可。選型過程中不需要用戶對大模型有深入了解，這將降低用戶選擇使用大模型的門檻，促進大模型普惠化。

模型參數(shù)量選擇方法示例

探索設(shè)計模型選型使用“說明書”

在元景大模型應(yīng)用落地中，中國聯(lián)通基于上述評估基準(zhǔn)，打造評估工具，量化1B、7B、13B、34B和70B等元景基礎(chǔ)大模型的能力邊界，并分別將其用于違規(guī)短信分類、投訴工單分類、客服助手、漁業(yè)知識問答、元景App問答等場景，提煉“模型參數(shù)量-模型能力-應(yīng)用場景”關(guān)聯(lián)關(guān)系（如下圖），作為大模型使用“說明書”，集成到元景MaaS平臺，為開發(fā)者提供選模型指引。

模型參數(shù)量-能力-場景的對應(yīng)關(guān)系圖

接下來，中國聯(lián)通將繼續(xù)推進模型邊界量化機理研究，擴展和深化“模型參數(shù)量-模型能力-應(yīng)用場景”關(guān)聯(lián)關(guān)系，協(xié)同業(yè)界持續(xù)擴展模型能力邊界，完善和增強大模型的“記憶-推理-規(guī)劃-創(chuàng)造-成長-價值觀”能力鏈條，打造自主可控、模態(tài)豐富、性能先進、高性價比、安全可信的基礎(chǔ)大模型，支撐千行百業(yè)場景應(yīng)用，加速大模型普惠化。

中國聯(lián)通業(yè)界首創(chuàng)大模型能力邊界量化基準(zhǔn)