文|獵云網(wǎng) 王非
距4月14日雷軍官宣殺入大模型不到4個月,小米大模型終于首次曝光,并交出了一份初步成績單。
多方消息顯示,小米大模型MiLM-6B現(xiàn)身C-Eval、CMMLU大模型評測榜單。
根據(jù)GitHub項目頁給出的信息,MiLM-6B(下稱:小米大模型)是由小米開發(fā)的一個大規(guī)模預(yù)訓(xùn)練語言模型,參數(shù)規(guī)模為64億。
相關(guān)頁面顯示,小米大模型在C-Eval榜單中排名第9、同參數(shù)量級排名第1,在CMMLU中文向大模型排名第1。
值得一提的是,雷軍將于8月14日晚間的新品發(fā)布會上,發(fā)表年度演講。
本次演講以“成長”為主題,雷軍發(fā)布的微博透露,“當(dāng)初做的一個決定,改變了我的一生。”而且,這個決定讓他慶幸至今。
外界猜測,雷軍年度演講的內(nèi)容,除了與小米造車相關(guān),或許還將與小米籌備已久的大模型有關(guān)。
來源:微博截圖
小米大模型取得雙“第一”,下周一或亮相
C-Eval榜單,全稱C-Eval全球大模型綜合性考試測試榜,是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的中文語言模型綜合性考試評估套件。
該套件覆蓋人文、社科、理工、其他專業(yè)四個大方向,包括52個學(xué)科,涵蓋微積分、線性代數(shù)等多個知識領(lǐng)域。共有13948道中文知識和推理型題目,難度分為中學(xué)、本科、研究生、職業(yè)等四個考試級別,能夠更加全面的對模型的語言處理能力進(jìn)行評估,對中文社區(qū)語言大模型的研發(fā)有著很好的參考價值。
具體而言,在C-Eval評估中,小米大模型的平均分為60.2,在STEM、社會科學(xué)、人文科學(xué)、其他這四個類別中,均取得了不錯的表現(xiàn)。
來源:C-Eval截圖
其中,在STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué)教育)全部20個科目中,小米大模型得分54.5,在計量師、物理、化學(xué)、生物等多個項目中獲得了較高的準(zhǔn)確率;在10個社會科學(xué)科目中,小米大模型得分71.7,在教育學(xué)和地理外的所有科目中,獲得了較為理想的準(zhǔn)確率;在11個人文科學(xué)科目中,小米大模型得分62.7,在歷史與法律基礎(chǔ)上,獲得了不錯的準(zhǔn)確率;在其他分類下,小米大模型則得分57.7。
整體而言,小米大模型在法學(xué)、數(shù)學(xué)、編程、概率論、離散數(shù)學(xué)等科目上的表現(xiàn),仍然有明顯進(jìn)步空間。
CMMLU,則是由MBZUAI、上海交通大學(xué)、微軟亞洲研究院合作完成的,一個全面的中文大模型基準(zhǔn)。它涵蓋了67個主題,涉及自然科學(xué)、社會科學(xué)、工程、人文、以及常識等,可以全面地評估大模型在中文知識儲備和語言理解上的能力。
在CMMLU中文向大模型評估中,小米大模型在zero-shot和five-shot測試中的平均分分別為60.37和57.17,表現(xiàn)出良好的知識和推理能力。
在zero-shot測試中,小米大模型在人文學(xué)科得分63.49,社會科學(xué)得分66.2,其他得分62.14,中國特定主題得分62.07,平均分為60.37。
來源:CMMLU截圖
在five-shot測試中,小米大模型在人文學(xué)科得分61.12,社會科學(xué)得分61.68,其他得分58.84,中國特定主題得分59.39,平均分為57.17。
來源:CMMLU截圖
小米大模型首次曝光于上述兩個評測榜單中,并取得“雙第一”的不錯成績,也為其接下來的亮相,帶來了充足底氣。
至于亮相的時間,或許就在下周一,小米舉辦的新品發(fā)布會中,雷軍的年度演講環(huán)節(jié)。
此前,雷軍曾表示,“今年的演講比前幾年更長些,演講之后是我們的年度新品發(fā)布,還會披露我們技術(shù)探索的新進(jìn)展。今年內(nèi)容也非常多,估計3小時左右。”
雷軍口中的“技術(shù)探索的新進(jìn)展”,除了小米汽車,可能就要數(shù)小米大模型了。
任命欒劍做領(lǐng)頭人,千人團(tuán)隊百億研發(fā)護(hù)航
4月14日,據(jù)澎湃新聞報道,小米集團(tuán)發(fā)布內(nèi)部郵件,任命欒劍擔(dān)任技術(shù)委員會AI實驗室大模型團(tuán)隊負(fù)責(zé)人,向技術(shù)委員會副主席、AI實驗室主任王斌匯報。
公開資料顯示,欒劍現(xiàn)任小米技術(shù)委員會AI實驗室語音生成團(tuán)隊負(fù)責(zé)人,曾任東芝研究院研究員、微軟工程院高級語音科學(xué)家、微軟小冰首席語音科學(xué)家及語音團(tuán)隊負(fù)責(zé)人等職位。
緊隨其后,雷軍于4月14日晚間在微博發(fā)文,首度談及小米對大模型和AIGC的看法。
“全力以赴、堅決擁抱”,雷軍為小米大模型發(fā)展定調(diào)!他還透露,對于大模型,小米“正在研發(fā)一些有趣的技術(shù)和產(chǎn)品,等我們打磨好了,再給大家展示。”
雷軍在微博提及小米,在AI領(lǐng)域有AI實驗室、小愛同學(xué)、自動駕駛等團(tuán)隊。
來源:微博截圖
此外,從服務(wù)能力協(xié)同來看,雷軍手中亦有金山云這張底牌。金山云是金山軟件的附屬公司,在公司掌舵人雷軍超前布局下,是與阿里巴巴最早在中國全力進(jìn)軍云計算的企業(yè)。
要知道,ChatGPT熱潮帶來的AI競爭,最直接的受益者正是云計算平臺。一方面,生成式AI應(yīng)用背后的大模型需要更強(qiáng)的算力;另一方面,區(qū)別于傳統(tǒng)云計算平臺提供的算力、存儲等資源,擁有大模型的云廠商未來可以提供基于大模型開發(fā)應(yīng)用。
早在今年2月的小米投資者日上,對于小米在ChatGPT上的布局,小米手機(jī)部總裁曾學(xué)忠就表示,ChatGPT基于AI大模型、千億級參數(shù)量、數(shù)據(jù)量、還有人工標(biāo)注支撐,AI大模型方面小米一直都有投入。手機(jī)和汽車業(yè)務(wù)有很多AI大模型落地的場景。
隨后,在今年3月的2022年財報電話會議上,小米集團(tuán)總裁盧偉冰談到ChatGPT相關(guān)問題時表示,小米很早就在AI大模型方面進(jìn)行了許多部署,同時采用了多技術(shù)路線并行的策略,小愛同學(xué)就是小米大模型落地的代表。
5月24日晚,小米披露的2023年第一季度業(yè)績數(shù)據(jù)中提到,目前小米AI領(lǐng)域相關(guān)研發(fā)人員超1200人,未來小米將不斷挖掘AI相關(guān)的用戶場景,發(fā)揮技術(shù)優(yōu)勢,并以開放的態(tài)度與合作伙伴開拓更多機(jī)會。
盧偉冰再次強(qiáng)調(diào),小米會積極擁抱大模型技術(shù),但小米不會像OpenAI那樣去做通用大模型,而是尋求大模型與自身業(yè)務(wù)的深度協(xié)同,例如與小愛同學(xué)、MIUI、機(jī)器人等業(yè)務(wù)相結(jié)合,同時也不斷提升集團(tuán)的內(nèi)部工作效率。
小米副總裁、首席財務(wù)官林世偉也在業(yè)績電話會上透露,“已經(jīng)把業(yè)內(nèi)大模型團(tuán)隊都過了一遍”,小米會采用慣用的“打法”,也就是戰(zhàn)略投資等方式,來實現(xiàn)AI大模型方面的生態(tài)合作。
第一季度業(yè)績數(shù)據(jù)還顯示,小米一季度持續(xù)投入研發(fā),研發(fā)支出同比增長17.7%達(dá)41億元。小米表示,預(yù)計2023年總研發(fā)投入將超200億元。
從目前綜合信息來看,小米大模型“萬事俱備,只欠東風(fēng)”。下周一晚間,能否見證它的正式亮相,外界正翹首以待。