圣陶教育|張民選:基礎教育評價改革的六大趨勢
作者:江蘇圣陶教育科技發展有限公司 發布日期:2023-02-16
2020年,國務院印發的《深化新時代教育評價改革總體方案》明確提出,到2035年,基本形成富有時代特征、彰顯中國特色、體現世界水平的教育評價體系。黨的二十大報告也強調,“完善學校治理和教育評價體系”。
在評價改革過程中,遇到“改革高原”的時候,怎么辦?有一個思路是,堅持“教育要面向現代化、面向世界、面向未來”,“堅持對外開放的基本國策”,堅持“高水平對外開放”,“拓展世界眼光,深刻洞察人類發展進步的潮流……以海納百川的寬闊胸襟,借鑒吸收人類一切優秀文明成果”,在此基礎上形成中國式現代化,實現中華民族偉大復興,推動建設更加美好的世界。
在這樣的思想指引下,我研究了全球關于基礎教育評價的前沿研究,包括來自聯合國、世界銀行、經濟合作發展組織以及歐盟、東盟等發達國家的文獻報告。
這些報告呈現了基礎教育評價改革的六大趨勢,我們可以從中汲取營養,以促進中國式教育評價體系的建立,牽引基礎教育的高質量發展。
過去,我們對學生、教師和學校的評價,往往是單項評價?,F在,迎來了大的轉向。轉向的標志性成果是,2002年聯合國教科文組織開始聘請第三方監測各國教育發展概況,每年發布監測評價報告。而且,檢測與評價不是分開的兩個詞,而是合成的一個新詞叫M&E(monitor & evaluation)。評價具有滯后性,總是事后去檢查。但對教育來說,滯后性往往是致命的。生命只有一次,滯后不僅意味著浪費金錢和人力,也可能導致浪費孩子們的生命;對國家和社會來說,也可能導致浪費潛在的人才。比如,一個玩沙子的孩子組織能力很強,將來可能當將軍,結果老師說孩子太皮了,也許就抹殺了孩子的天性,未來也少了一位將軍。因此,人們開始考慮另外一種方向。那么,什么是監測呢?有學者在2001年指出,監測是一種具有內在動機且精心設計的評價活動,旨在對一個項目持續提供多側面的信息反饋,從而發現實施過程中的問題和實施的效率效益。什么又是教育監測?它是一種教育評估,但監測的是教育事業或教育項目,在其實施過程中進行。它通過在第一時間向決策者和實施者提供早期、具體、多維的操作和信息,不斷修正偏差,以完善教育目標與方案、調整過程與配置、選擇適恰的教學方法技術,從而確保既定教育目標的實現。我覺得,這是教育評價應該有的方向。正因如此,聯合國教科文組織從2002年起,每年既有總體性的評價,又有重點項的監測內容。比如2003年,基于數字化盛行的時代背景,將“數字化轉型監測”定為報告主題,并監測各個國家的實施情況。OECD的PISA三年一次,可以監測每個國家在完成義務教育階段時的學生發展水平和政策導向。英國教育質量標準局對學校的評估和監測,分為“優秀、比較好、一般、需改進”四個層次。越優秀的學校,監測的間隔時間越長,可能四年到校監測一次,每年學校僅提供自評報告給質量標準局;有問題、需改善的學校,則每年參與兩次評審,不斷監控學校發展過程。因為上海參加了PISA,同時結合本地需求,我們設計了《上海市義務教育階段學生學業質量綠色指標體系》。評估每兩三年舉行一次,包含學業成績、學習動力、學生負擔、教學方式、體質健康、師生關系等。下圖是一所學校2014年和2015年的兩次評估結果,呈現了10個向度的指數情況。評估結果反饋給校長,就能幫助學校不斷調整發展方向,越辦越好。2018年,我們對方案進行了修改,讓評估更完善。我們當然希望一個好校長帶出一所好學校,但公立教育,特別是義務教育的均衡與質量水平,不但有賴于教師和校長,更取決于地方政府的教育政策、經費資源、人力資源和生源配置。OECD的PISA測評中,上海成績第一。成績背后,與學生認知發展、投入方法、投入多少有關,也與學校差異有關。那么,學校間的差異由什么造成?學校內部哪些是更重要的因素?高水平家庭的孩子進了好學校,農民工子女進了差的學校,原因是什么……于是,政策和資源配置的問題就出來了。- 管理資源配置:包括校長配備、財政經費、自主空間,比如,財政經費好的學??赡茏杂蓹啻?,差一點的學校反而錢不足;
- 環境資源配置:包括學生來源、專業合作、社會支持,比如優秀學??梢匀≌猩?,普通學??赡苤辉诒窘值勒猩?;
沒有種種資源,一個好校長有時候也辦不了一所好學校。所以,教育評價包含對政府的督導,是好的轉向。聯合國教科文組織2017和2018全球教育監測報告的主題是“教育問責”,指向“政府到底怎么做”。中國的《評價改革方案》也強調“各級黨委和政府要堅持正確政績觀”,符合國際趨勢;同時,以學生評價、政府評價、學校評價、用人評價、教師評價構成系統,與OECD的評價系統完全一樣??梢?,我們已經走到世界的前列。但是,實際辦學過程當中,我們還是可以看到學校間的差異。關于學校差異對學生成績的影響力水平,OECD統計顯示,學校與學生數學成績之間的方差占比平均值是37%。芬蘭的學校高度均衡,只有8%;上海的初中是29%,高中是58%,折算后上海整體變成47%,差異驚人。過去幾年上海為什么堅持“均衡優質”,原因就在這里。在教育評價中,對教師的評價起步較晚。美國從1957年開始做教師評價,由于當時主要評價是課程評價,但直到80年代評價工作仍未完成,教育質量仍然不好。于是,美國開始把教師單拎出來進行評價,但那時主要是問責式評價,“看看老師在哪些地方還沒做好,以提高教育質量”。因此,目前對教師的評價,是以行政管理的方式推進,按照績效獎懲教師,對教師教育質量的推動作用非常有限。學者們認為,教師評價更應該轉變為“為了教師專業發展的評價”,因為教師專業水平提升,教育質量就會隨之而提升。此外,沒有兩個教育情景完全相同,忽視了教師個體差異而進行評價,一定會引起內卷,讓老師身心疲勞;反過來,“躺平”也會降低教師的幸福感。以教師為對象,檢驗他們的履職程度當然很重要。它本質上是一個由外向內的問責,包含遵紀守法、履約敬業、達成目標、檢驗績效高低等方面,以此獎優懲懶,提升教師效率。但是,它容易進入精致主義層面,而且是無意義的精致。當然,對教師的評價還要兼顧多層次、多工具的評價,其核心是保障公平。但它的弱點是有“反駁效應”。比如設立“五唯”指標,那就可能出現只圍繞指標做事而忽略其他事項的情況,同樣會影響孩子的健康成長。本來目的是監測,結果變成“你評什么我就干什么”。久而久之,它會產生競爭內卷和躺平。因此,要追求“去反駁效應”。促進教師專業發展的評價,則是一種協作互信、講究反饋和改進、內外結合的專業指導。它重視教師的發展過程,重視發現教師間的差異,并據此完善教師的行動,提供反饋建議。這種評價的條件是要看輕利害,不以獎懲為主,力求真實,分析教師的行為,進行建議指導。所謂教師自己的評價,強調內在主體需求的升華。教師愿意自己測評,愿意參與評價的設定,進行反思研究,凸顯教師自己的專業特色,提升能力。這種評價的條件是提供參照,提供最佳案例,以及通過技術支持進行自診自評,發現優勢弱點,提高自我效能。上海奉賢中學,在教師評價中專門設立了“教師自設性挑戰項目評估”。教師自己提出來明年想做的兩件事,個人申報,立項審核,過程中學校給予指導,最后總結評價,實現了教師自主立項、學校評估。上海一師附小搭建“教師發展評價系統”,讓教師個人和集體都明白:自己在哪里(起點);可以到哪里去(方向);如何達到(措施);如何知曉有沒有到達(評價)。由此,形成了這樣的教師成長框架:我現在的狀況是什么?(自我分析、自我定位)→ 我努力的方向(鎖定目標、細化步驟)→我采取的措施(投入研修、學習實踐)→ 我的目標達成(互評總結、持續發展)。這一過程可以通過自我評價、合作評價、發展評價來推動實施。上海閔行實驗小學將“基礎性評價”和“發展性評價”并舉(70%-30%),努力保障教師有自己選擇的權利和發展空間。學校在設計評價方案時適度“留白”,邀請教師參與、鼓勵教師首創;建立個性發展平臺,提供專業成長的選擇性路徑;激活教師的內在發展自覺,揚其長、成其能,讓每個人的優勢真正表現出來。以PISA為例,上海從2009年開始一直領先于全世界,大家都覺得上海是最好的了,其實不然。將所學的基礎學科知識和技能運用到不同場景中去,主要是基礎素養。而完整的素養框架,還包含計算機問題解決、財經素養、協作問題解決、全球勝任力、創新能力,這些才是核心素養勝任力。在這些勝任力中,我們一個第一也沒有。在PISA2012以計算機為工具進行的一項學生評價中,中國的成績是全世界第六(536分),看上去還不錯。但當我假設“閱讀、數學、科學知識學習越好,成績越高,就越能夠解決問題”這樣一個命題,重新排名,上海就墊底了。可以看到,韓國(561分)、美國(508分)、新加坡(562分)等地分數是正相關的,即“閱讀、數學、科學學得越好,解決問題的能力也越強”,但中國是負相關的,而且是全世界最厲害的。我們原來閱讀、數學、科學是全世界第一,但是負相關50分,問題解決的能力就排到18位了,真的成了“高分低能”。問題在哪?PISA描述得很清楚——對老師培養學生解決問題的能力沒有進行深入研究。什么叫提升學生解決問題的能力?首先,學生有沒有意愿參與這樣的認知過程,是不是有利于學生個人潛能的發揮?問題有沒有不同的情景?問題解決過程是什么樣的?配置與解決過程應該有哪些思維能力?……這些問題不搞清楚,怎么能提高學生解決問題的能力?我們目前的問題就在這里。教學仍是重要的評價方式,而且評價維度在不斷精細化。原來我們只講教學,但其實教學可以分成課堂管理、教學質量和情感支持三個維度。我們參加了一項全球性的教學視頻研究,每個國家85位數學教師,每人上兩堂課(“一元二次方程”),錄制上課教學行為的視頻,進行同課異構,觀察其中差異。下圖是對比情況。可以看到,我們的課堂管理(圖中灰色線段)是最強的,教師管理很厲害,高于日本、英國、德國三個典型國家。但是,我們的教學質量(圖中藍色線條)就差了,相當集中但是水平較低,在及格左右??磥?,這么多國家都在搞教學改革,課堂卻還是比較傳統。在社情支持(圖中灰色虛線)中,我們也較差。進一步細看,教學可以分成學科內容質量、學生認知參與、基于學生理解的評價與回應、課堂對話。我們只有教師的學科知識掌握第一,學生認知參與跌下來了,理解學生方面稍微好點,課堂對話較差。這些教學行為本身值得我們思考。上圖是關于教學的情感支持,圖中越向右偏,說明對學生的支持越大。8個國家和地區中,情感支持我們最差。分析視頻發現,我們的課堂里,教師經常問大家“懂了沒有”??傻聡處煆膩聿粏枴岸藳]有”,而是經常問“哪幾位不懂”。學生回答“我不懂”,這時就是教學中的情感支持。所有的學生都愿意,也敢于在課堂上說“我不懂”。但是,我們的學生不敢說、不輕易說。
細分下來,對學生的情感支持又可分四個指標,我們的指標大部分都處于中間層次,有支持但不強烈。最后一個趨勢是運用信息技術,它正在成為一個新的杠桿。首先,大家都把信息技術作為老師應該掌握的內容,但這方面我們不占優勢。疫情之下,我們通過遠程教育,通過信息化,解決了所有同學不失學的情況。但是,數字化更應該是對每個學生因材施教,這個方面我們做得還不夠好。目前,世界各國已經在向著上圖的方向發展,即學生有助學系統,教師有助教系統,這些系統都在大數據支持下不斷反饋。2021年,歐盟在“數字能力框架指南”的基礎上,研發了一套名為SELFIE的數字教育自我評價工具(分學校、職教、教師和學前版),可以供學校、教師和學生自測自評使用。其中,對老師的評價分成“專業投入(9)、數字資源使用(5)、教與學(5)、學生測評(3)、賦能學習者(4)、提升學生數字素養(6)”等六個方面(括號中數字為指標數量),共設32項測評指標,每個指標又分成1~6的熟練水平。比如,數字資源使用1指標,包含6個熟練度:水平1—我意識到;水平2—我試用過;水平3—我已使用;水平4—我可以在豐富的工具中挑選使用;水平5—我反思并重新設計與改進給孩子的東西;水平6—我可以自創并自設。借助現代信息技術和數據分析,歐盟不僅給老師進行測評,還可以基于幾十萬教師數據提供指導:哪些方面你更強,哪些方面你還弱;并且給出提升的建議,幫助教師成長。
【版權聲明】文章來源:新校長傳媒、中小學校長論壇微信公眾號;
內容據作者在第二屆中國基礎教育論壇的報告整理。作者 | 張民選(聯合國教科文組織教師教育研究中心主任)。版權歸相關權利人所有,轉載此文是出于傳遞更多信息之目的。尊重原創,如涉版權,請聯系刪除。