5月20日,甲骨易AI研究院 “超越”中文大模型測試集正式發(fā)布。據介紹,“超越” 的意義是希望中文大語言模型 “超” 出多數模型只能基于英文數據集測試的現狀,通過發(fā)現大模型的缺陷,從而促進大模型理解中文語言的能力,使其 “越” 來越強大。 這里“超”和“越”要單獨來理解,并不是超越別人的意思。
甲骨易AI研究院首席研究員Felix透露,4月推出了MMCU的測試集和測試方法。數據集的測試內容涵蓋四大領域:醫(yī)療、法律、心理學和教育。題目的數量達到1萬+,其中包括醫(yī)療領域2819道題,法律領域3695道題,心理學領域2001道,教育領域3331道。
“我們是把大模型當作一個真正的人類來看待,”Felix表示,測試集之所以涉及語、數、物理、化學這些科目,因為人工智能必須像人類一樣,具備對于世界的基礎的認知;而醫(yī)療、法律、心理學專業(yè)領域則是將大模型視為專業(yè)人士進行考核。