国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

甲骨易AI研究院推出中文大語(yǔ)言模型評(píng)測(cè)集合-LucyEval,讓智能有跡可循!

發(fā)布時(shí)間:2023-8-31 10:47    發(fā)布者:科技新思路



夕小瑤科技說(shuō) 分享
Lucy,是距今320萬(wàn)年最早的人類(lèi)祖先,也是被輸入某種“物質(zhì)”后大腦開(kāi)發(fā)到100%的超智能人類(lèi),能感知宇宙萬(wàn)物,擁有人類(lèi)所有知識(shí)。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

隨著大語(yǔ)言模型不斷調(diào)優(yōu),大模型擁有了更優(yōu)越的理解人類(lèi)話(huà)語(yǔ)、指令并且生成類(lèi)似人類(lèi)語(yǔ)言文本的能力。機(jī)器和人類(lèi)終歸不同,如何最快速地判斷機(jī)器是否能正確理解人類(lèi)的知識(shí)和語(yǔ)言,成為我們共同關(guān)注的問(wèn)題。

由此,甲骨易AI研究院推出了中文大語(yǔ)言模型成熟度評(píng)測(cè)——LucyEval,能夠通過(guò)對(duì)模型各方面能力的客觀測(cè)試,找到模型的不足,幫助設(shè)計(jì)者和工程師更加精準(zhǔn)地調(diào)整、訓(xùn)練模型,助力大模型不斷邁向更智能的未來(lái)。

Lucy的每一個(gè)字母背后都代表了不同的意義,包含著甲骨易AI研究院設(shè)計(jì)LucyEval時(shí)所考量的維度和堅(jiān)持的理念。

  • L - Linguistic Fundamentals: 基礎(chǔ)理解能力
  • U - Utilization of Knowledge: 知識(shí)運(yùn)用能力
  • C - Cognitive Reasoning: 推理能力
  • Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含義:

Linguistic Fundamentals (基礎(chǔ)理解能力) :描述模型對(duì)基礎(chǔ)語(yǔ)法、詞匯和句子結(jié)構(gòu)的理解程度。
Utilization of Knowledge (知識(shí)運(yùn)用能力):衡量模型在回答問(wèn)題或生成文本時(shí)如何運(yùn)用其內(nèi)嵌的知識(shí)。

Cognitive Reasoning (推理能力):評(píng)價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復(fù)雜問(wèn)題。

Yield of Specialized Outputs (特殊生成能力):測(cè)試模型在生成特定類(lèi)型或風(fēng)格的文本(例如詩(shī)歌、代碼或?qū)I(yè)文章)時(shí)的效能。

目前,LucyEval已發(fā)布如下兩項(xiàng)測(cè)試集。

大規(guī)模多任務(wù)中文理解能力測(cè)試 Massive Multitask Chinese Understanding

2023年4月25日,針對(duì)中文大模型理解能力測(cè)試缺失且推出高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集迫在眉睫這一現(xiàn)狀,甲骨易AI研究院率先發(fā)布(首發(fā))了一套大規(guī)模多任務(wù)中文大模型理解能力測(cè)試。
測(cè)試所包含的題目來(lái)自醫(yī)療、法律、心理學(xué)和教育四個(gè)科目的11900個(gè)問(wèn)題,包含單項(xiàng)選擇和多項(xiàng)選擇題,目的旨在使測(cè)試過(guò)程中模型更接近人類(lèi)考試的方式,覆蓋學(xué)科面廣,專(zhuān)業(yè)知識(shí)難度高,適合用來(lái)評(píng)估大模型的綜合理解能力。

論文鏈接:
https://arxiv.org/abs/2304.12986

中文大模型多學(xué)科生成能力自動(dòng)化評(píng)測(cè)基準(zhǔn) Chinese Generation Evaluation

目前領(lǐng)域內(nèi)的評(píng)測(cè)大多都只針對(duì)模型的中文理解能力,通過(guò)選擇題由模型直接生成答案,或者提取模型對(duì)各個(gè)答案選項(xiàng)的輸出概率。從評(píng)測(cè)大模型的生成能力的角度,這些評(píng)測(cè)基準(zhǔn)就存在很大的局限性。

在率先發(fā)布國(guó)內(nèi)首個(gè)中文大模型理解能力測(cè)試后,甲骨易AI研究院于8月9日正式發(fā)布一套自動(dòng)測(cè)評(píng)中文大模型多學(xué)科生成能力的評(píng)測(cè)基準(zhǔn)。

基準(zhǔn)包含11000道題目,涵蓋科技工程、人文與社會(huì)科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊(cè)會(huì)計(jì)師考試等科目下的55個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計(jì)算題三種類(lèi)型。同時(shí),甲骨易AI研究院還設(shè)計(jì)了一套復(fù)合打分方式Gscore,使評(píng)分過(guò)程更加合理、科學(xué)。

甲骨易AI研究院使用本評(píng)測(cè)基準(zhǔn)對(duì)以下模型進(jìn)行了zero-shot測(cè)試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測(cè)中文大語(yǔ)言模型


從所有模型在六大類(lèi)科目的平均分來(lái)看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受測(cè)中文大語(yǔ)言模型平均得分

受測(cè)模型在其他學(xué)科的表現(xiàn)詳見(jiàn)評(píng)測(cè)地址:

http://lucyeval.besteasy.com/

未來(lái),甲骨易AI研究院將矢志不移地為提升中文大語(yǔ)言模型能力為目標(biāo),持續(xù)研究適應(yīng)其發(fā)展的測(cè)試集,期待與同樣關(guān)注大語(yǔ)言模型發(fā)展的業(yè)界同仁攜手共建。

論文鏈接:
https://arxiv.org/abs/2308.04823


更多AI相關(guān)資訊,請(qǐng)關(guān)注微信公眾號(hào):甲骨易



本文地址:http://m.qingdxww.cn/thread-837952-1-1.html     【打印本頁(yè)】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé);文章版權(quán)歸原作者及原出處所有,如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,我們將根據(jù)著作權(quán)人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評(píng)論 登錄 | 立即注冊(cè)

廠商推薦

  • Microchip視頻專(zhuān)區(qū)
  • Dev Tool Bits——使用MPLAB® Discover瀏覽資源
  • Dev Tool Bits——使用條件軟件斷點(diǎn)宏來(lái)節(jié)省時(shí)間和空間
  • Dev Tool Bits——使用DVRT協(xié)議查看項(xiàng)目中的數(shù)據(jù)
  • Dev Tool Bits——使用MPLAB® Data Visualizer進(jìn)行功率監(jiān)視
  • 貿(mào)澤電子(Mouser)專(zhuān)區(qū)
關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權(quán)所有   京ICP備16069177號(hào) | 京公網(wǎng)安備11010502021702
快速回復(fù) 返回頂部 返回列表
主站蜘蛛池模板: 亚洲欧美成人中文在线网站 | 最近中文字幕手机 | 亚洲热久久 | 国产高清在线免费观看 | 韩国一级黄色录像 | 婷婷中文网| 久久中文字幕一区二区三区 | 久草国产在线视频 | 一区免费在线观看 | 国产精品观看视频免费完整版 | 美国女网址www呦女 美国农夫激情在线综合 | a看片| 亚欧精品在线观看 | 中文字幕26页 | 欧美成人一区二区 | 91麻豆最新在线人成免费观看 | 久久99精品免费视频 | 四虎永久免费网站 | 精品无人区乱码在线观看 | 精品久久久久久影院免费 | 精品欧美一区手机在线观看 | 黄色免费网站观看 | 免费黄色网页 | 国产精品成人观看视频网站 | 两个人高清视频免费观看www | 黄色网页免费观看 | 欧美日本视频在线观看 | 九九免费在线视频 | 亚洲精品成人中文网 | 日韩不卡一区二区三区 | 国产一卡二卡3卡4卡更新 | 国外欧美一区另类中文字幕 | 免费国产99久久久香蕉 | 国产精品一区在线免费观看 | 欧美一级日韩一级亚洲一级va | 国产美女久久精品香蕉69 | 五月婷婷国产 | 最新毛片网 | 91精品久久久久久久久久小网站 | 日本一区二区三区视频在线 | 久久思 |