【環球網科技報道 記者 鄭湘琪】近年來,超大規模的預訓練模型成為全球人工智能技術研發的熱點。作為大模型發展的風向標,評測基準也受到業界越來越廣泛的關注。為更有效評估大模型的通用語言智能,近日,北京智源人工智能研究院(以下簡稱“智源研究院”)發布機器中文語言能力評測基準——“智源指數(CUGE)”。
智源指數具有哪些特征?智源指數的發布將為大模型發展帶來怎樣的影響?智源研究院后續將如何完善相關評測體系?針對上述問題,記者與清華大學教授、智源研究院自然語言處理(NLP)重大研究方向首席科學家孫茂松,清華大學副教授、智源青年科學家、智源指數建設骨干成員劉知遠進行交流。
搭建立體的AI評價體系
為有效評測大模型的通用語言智能,科學合理的評測基準不可或缺。孫茂松表示,“最近幾年,預訓練模型的發展讓AI能夠通過自監督學習的方式,習得一定的通用語言能力。這標志著自然語言處理以及AI 正在進入新的技術范式。對于具有一定通用語言能力的預訓練模型,我們如何去全面準確地進行評價,這本身也需要一個科學有效的評價體系。”
近些年,GLUE等英文評測基準成為衡量大模型語言智能進展的重要標準。然而,智源研究院認為,面向中文的自然語言處理缺少一個科學有效的全面評測基準。基于此,孫茂松帶領智源NLP學者共同建立了機器中文語言能力評測基準——智源指數。
據孫茂松介紹,“在基準框架方面,不同于傳統將常用數據集扁平組織的方式,智源指數根據人類語言能力和當前NLP研究現狀,借鑒人類語言考試大綱,以語言能力-任務-數據集的分層框架來選擇和組織數據集,涵蓋7種重要的語言能力、17個主流NLP任務和19個代表性數據集,更加全面均衡。”
在評分策略方面,智源指數能更好展現模型不同維度的語言智能差異,依托層次性基準框架,提供不同層次的模型性能評分,包括數據集、任務和語言能力等,從而更加系統地考察模型的語言智能,形成“多層次維度”的評分策略。
劉知遠表示,“智源指數旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。我們希望以此為機器語言能力的評估提供更加全面系統、多層次、多維度的評測標準,一方面兼顧理解和生成等自然語言處理領域,另一方面回應行業AI模型的差異化、特點鮮明等現狀。”
生態共建,完善智源指數
為促進智源指數的共建共享,提升智源指數的易用性,智源研究院還發布了在線評測平臺和公開排行榜,其中包含綜合榜、精簡榜和單數據集榜,方便用戶多角度了解模型和數據集特性及最新動態,綜合衡量AI模型的能力。
劉知遠表示,智源研究院將通過生態共建,不斷完善智源指數。“基于單數據集的榜單能力,未來智源指數將不斷構建和吸納高質量中文自然語言處理數據集,我們將和委員單位分工負責各語言能力數據集的建設,共同完善評測體系。同時,我們還將依托智源研究院、智源社區,建立用戶面向數據集和評測結果的反饋、討論機制,構建起中文高質量數據集社區,推動中文自然語言處理的發展。”
據劉知遠介紹,為更好支持智源指數未來的發展,智源指數工作委員會正式成立,委員單位目前已經吸納了國內自然語言處理方面10余家單位,接近20個相關研究組。
此前,智源研究院院長黃鐵軍曾在采訪中表示,“人工智能在未來的幾年之內會逐漸形成這樣的狀態:人工智能大模型作為基礎的產業生態,用大算力訓練出最高水平的智能,為各種人工智能應用‘賦智’。就像今天的電網給大家提供電力一樣,未來幾年,人工智能將以大模型為基礎向社會提供源源不斷的智力服務。”
對此,劉知遠表示,“此次智源指數的發布為大模型的發展方向提供了更好的指引。未來,在自然語言處理方面,智源研究院將繼續在智源指數與‘悟道’大模型方向發力。”
據悉,在智源研究院的支持下,自然語言處理重大研究方向學者團隊近年來持續探索自然語言處理新格局,通過大數據與富知識雙輪驅動,并通過與跨模態信息進行交互,大幅提升了以自然語言為核心的中文語義理解與生成能力。
關鍵詞: 智源 模型 自然語言 評測 語言 指數 研究院 能力
責任編輯:Rex_07