文|多鯨資本 蔣錚
自今年三月份 OpenAI 發(fā)布 GPT-3.5 以來,至今已有半年時間。短短半年內,國內外科技公司紛紛效仿,于半年內陸續(xù)推出了通用大模型。除了像 BAT 這樣勢頭強勁的老牌互聯(lián)網公司,大模型的垂直類端口也取得了革命性的突破。在其中,教育板塊,由于其自身帶有的各種屬性,包括對于知識資源的需求,對于對話交際的依賴,與大模型的結合呈現(xiàn)出高度匹配性。教育,成了大模型的下一塊必爭之地。
隨著 AIGC 概念興起,大模型賦能的智能學習硬件、AI 語言教學、AI 虛擬老師等產品也隨之吸引了一大波關注?!复竽P湍芊裉娲蠋煹穆毮堋惯@一議題,掀起了各方熱議。
近日,各地 2023 年下半年教師資格考試落下帷幕。教師工作司司長任友群在 9 月 6 日教育部舉行的新聞發(fā)布會上表示,教師資格考試和定期注冊制度已全面實行,教師資格考試報名人數(shù)由 17.2 萬人次躍升至今年的 1144.2 萬人次。由此,筆者萌生了用教資試題這塊「試金石」,測驗大模型能否成為「教師的教師」的想法,并選取了科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千問這三個通用大模型進行檢驗。
根據考綱,教師資格筆試主要考核申請人從事教師職業(yè)所具備的的教育理念、職業(yè)道德和教育法律法規(guī)知識;科學文化素養(yǎng)和閱讀理解、語言表達、邏輯推理和信息處理等基本能力;教育教學、學生指導和班級管理的基本知識;擬任教學科 (專業(yè))領域的基本知識,教學設計、實施、評價的知識和方式,運用所學知識分析等。
本文選取了 2023 上半年教師資格證《幼兒綜合素質》、《小學教育教學知識與能力》、《中學綜合素質》的筆試真題。題目范圍覆蓋學科常識、邏輯判斷、規(guī)范條例、綜合素質等多個方面,力求從多維度比較衡量大模型答題能力。除了最基本的準確性之外,如果想讓大模型「當老師」,其給出的回答也應該具備一定的邏輯性和知識補充作用。更有甚者,如果為了「追趕」真人教學效果,答題技巧也成了必要的一環(huán)。
圖片順序從上往下依次為科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千問。
1、在 Word 編輯狀態(tài),選擇了文檔全文,要在段落對話框中設置行距為 20 磅的格式,下列選項中應選擇的是( D )。
A.單倍行距
B.1.5倍行距
C.2倍行距
D.固定值
計算機辦公軟件應用常識題,三者都實現(xiàn)了正確作答。文心一言的回答對于 Word 行間距的知識點進行了補充。
2、學齡兒童易感染麻疹病毒。該病毒傳播的主要途徑是(C)。
A.血液
B.消化道
C.呼吸道
D.蚊蟲叮咬
均正確作答,訊飛星火的解釋最優(yōu),列舉了易感的現(xiàn)實場景,加深本題記憶。
3、中位數(shù)是一組統(tǒng)計數(shù)據中的代表性數(shù)值。在一次考試后采集到一組數(shù)據{ 54,66,87,74,78,81,73,83,77 },則這組數(shù)據的中位數(shù)是( C )。
A.74
B.75
C.77
D.78
均正確作答,訊飛星火對中位數(shù)概念進行了詳細的補充,并和文心一言一同給出了作答過程。在諸多對于大模型的測評中,數(shù)學能力普遍成為國產大模型的薄弱項,即使是最先進的大語言模型也難以正確地回答大量數(shù)學問題。本題因為教資學科常識題,題面設置簡單,而面對實際生活中或者數(shù)學競賽題中眾多的「彎彎繞繞」,還是要警惕大模型產生的「幻覺」。
4、在組織活動教學幼兒認識圖形時,李老師說:「請小朋友找出活動室里有圓形和正方形的物品」,李老師的做法體現(xiàn)的幼兒教育的特點是( D )。
A.基礎性
B.整體性
C.淺顯性
D.生活性
均作答準確,文心一言表現(xiàn)更加突出。訊飛星火僅給出答案,而通義千問的答案更像把題目復述了一遍,文心一言則對于相關規(guī)范以及作答模板呈現(xiàn)出了一定的專業(yè)性,在提供答案的同時起到了知識點補足的作用。
5、下列選項中,與「侗服——服裝」的邏輯關系相同的是( B )。
A.「語文」和「文學」
B.「汽水」和「飲料」
C.「領帶」和」"圍巾」
D.「皮鞋」和「皮包」
作答均正確,文心一言在答題的基礎上對每個選項進行了詳盡的說明,包括對于「交叉關系」、「種屬關系」和「并列關系」專業(yè)名詞的解釋。
6、「 10 以內的數(shù)字」一課教學結束時,為鞏固所學內容,李老師讓學生誦讀兒歌:「1 像鉛筆細長條, 2 像小鴨水上漂,3 像耳朵聽聲音, 4 像小旗迎風飄......」這種結課方式屬于( C )。
A.自然式
B.總結式
C.游戲式
D.懸念式
訊飛星火作答錯誤,并沒有給出具體的解釋。通義千問的回答還是存在著「復讀機」的毛病。值得一提的是,筆者將本題歸類到「邏輯判斷」中,是由于學生真人在進行作答時,盡管可能沒有對于相關知識點進行背誦,但仍然可以根據每個選項的字面闡發(fā)聯(lián)想,進而推理得到正確答案。而大模型進行作答時,盡管也體現(xiàn)了一定的邏輯判斷能力,其根基還是由海量數(shù)據投喂而成,由此喪失了一定的靈活性。
7、明明的父母怠于履行監(jiān)護者義務,讓明明長期處于無人照顧的狀態(tài),根據《中華人民共和國未成年保護法》,當?shù)孛裾块T應當采取的措施是( A )。
A.對明明進行臨時監(jiān)護
B.對明明進行長期監(jiān)護
C.撤銷明明父母的監(jiān)護資格
D.追究明明父母的刑事責任
通義千問回答錯誤。其他兩個大模型均引述了《中華人民共和國未成年保護法》條例,訊飛星火具體定位到了條例的第四十二條,而文心一言則對于此列舉得更加全面,主體界定更加清晰,同時也指出了 C 混淆選項的錯誤。對于法院,可以依法撤銷監(jiān)護人的資格;對于民政部門,可以進行臨時監(jiān)護。
本部分選擇了三道綜合性題目,分別從教學觀念、教育設計和師風引導方面分析大模型的作答能力。從總體的篇幅和結構可以看出,大模型已經比較能夠勝任長段落文字的輸出,并且均體現(xiàn)了一定的答題技巧和結構,尤其是在「教學設計」一環(huán)節(jié),表現(xiàn)得頗為出彩,環(huán)節(jié)詳盡。
8、周老師組織「太陽當空照」教學活動時,陽陽舉起手,大聲地問:「老師,哪里有太陽,根本看不見啊!」周老師說:「看不見太陽?那太陽到哪里去了呢?」陽陽眨著眼睛,想了一會兒說:「我媽媽說了,太陽讓烏云遮住了?!?/p>
問題:請結合材料,從教育觀的角度,評析周老師的教育行為。
9、如指導第二學段學生學習本文,試擬定教學目標,并設計第一課時教學活動并簡要說明理由。
遠看長城,它像一條長龍,在崇山峻嶺之間蜿蜒盤旋。從東頭的山海關到西頭的嘉峪關,有一萬三千多里。
長城修筑在八達嶺上,高大堅固,是用巨大的石條和城磚筑成的城墻頂上像很寬的馬路,五六匹馬可以并行。城墻外沿有兩米多高的垛子,垛子上有瞭望口和射口,每隔三百多米就有一座方形的城臺,是屯兵的堡壘。打仗的時候,城臺之間可以可以互相呼應。
想起古代建筑的勞動人民來,單看這數(shù)不清的石塊,一塊就有兩三千斤重,那時候沒有火車,汽車,沒有起重機,就靠著無數(shù)的肩膀,無數(shù)的手,一步一步的抬上這陡峭的山嶺。多少勞動人民的血汗和智慧,才凝結成這前不見頭,后不見尾的萬里長城。這樣氣魄雄偉的工程,在世界歷史上是一個偉大的奇跡。
通義千問此題表現(xiàn)不佳,沒有成功提煉出題干多段文本中的答題要求,而訊飛星火和文心一言均表現(xiàn)不錯,課程環(huán)節(jié)設計體現(xiàn)出了一定的遞進性。
10、初一時,曉斌經常逃課去網吧,還學會了抽煙,在學校,為了顯示自己的「厲害」,他經常欺負其他同學,不遵守班級紀律,同學們對他避而遠之,班主任說他「無藥可救」,曉斌反駁說:「對啊,我沒人管沒人問的!我就是無藥可救!不要你管!」
初二時,班主任換成了李老師,李老師一開學就認真了解班級每個同學的情況,給每個同學建立成長檔案,通過跟班級同學和其他老師的交流,他發(fā)現(xiàn)曉斌「變壞」是從他父母離婚后開始的,李老師還發(fā)現(xiàn),曉斌雖然有些壞毛病,但也有一些特長,比如他籃球打得好,曾經帶領班級籃球隊參加比賽獲過獎,還喜歡做航模,李老師耐心與曉斌進行溝通,讓曉斌擔任籃球隊隊長并領頭組建航模社團。在班級里,李老師安排學習委員做他的同桌,在學習上給他提供幫助。隨后,李老師主動聯(lián)系曉斌的父母,反映曉斌的情況,希望他們給予曉斌更多關愛。在李老師耐心地幫助和引導下,曉斌逐漸轉變了態(tài)度,學習成績也不斷提高。
問題:請結合材料,從教師職業(yè)道德的角度,評析李老師的教育行為。
三者回答格式基本正確,基本遵守了「定性+分段回答」的格式,而文心一言和通義千問的回答則彰顯出了一定的技巧性,比如,將要點作為短句精華放置在每個段落的最前,從人工批閱的角度看更加符合閱卷規(guī)律,而不是直接分析材料,容易導致誤差。
本次測評中,筆者選取了教資考試中的部分題目,選取了科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千文這三款國產大模型進行了一個比較粗糙的測評。題目范圍覆蓋學科常識、邏輯判斷、規(guī)范條例、綜合素質等多個方面,也是想從多個維度去考察大模型的真實能力。
僅從本次測評來看,文心一言的回答呈現(xiàn)出最高的準確性和規(guī)范性,更符合考生的需求。比如,除了提供正確答案之外,對于題目中所要考察的知識點也進行了補充和追溯,在綜合大題中也注意到了一些考試技巧。當然,這一結果與訓練數(shù)據庫包含內容掛鉤,所謂的「答題技巧」的呈現(xiàn)也存在偶然性,不能因此判斷各個廠商是否在訓練過程中有意地引導。不過,這依然使得一些能夠優(yōu)化改進點的地方浮現(xiàn)出水面。
使用大模型進行題目作答,并非突發(fā)奇想,而是本在今年三月 GPT-3.5 出示之時,就有相關預測表示,大模型強大的文本生成能力能夠使其成為教師進行備課和教案制作的好幫手,從而幫助老師們減負增效,更好地將精力投入到課堂教學中去。三月以來,已經有多家公司公開宣稱已經將大模型運用到機構的教案編撰、繪本編寫等環(huán)節(jié)中去,極大地加快了企業(yè)內容生產的流程,并壓縮了其中的人力成本。
相信,如果在人工二次校對的基礎上,使用國產大模型對于歷年教資材料進行梳理,其速度也將遠遠快于手工編寫,并且還能形成一套對話系統(tǒng)幫助考生鞏固知識點。我們已經能從中看出各大國產大模型的進步以及長足的野心。在未來,期待各個國產大模型能夠充分發(fā)揮好技術特點,在正確性、規(guī)范性和個性化上不斷取得突破,長效賦能未來教育。