給1078萬考生批卷的，可能不是個人

果殼硬科技·2021-06-07

關注

又一年高考開始了，4000余萬份高考試卷成績，還有背后1078萬考生的命運，都在各位閱卷組老師手中。

編者按：本文為合作媒體放大燈（guokr233）授權創(chuàng)業(yè)邦轉載，作者楊景詒，不代表創(chuàng)業(yè)邦立場

又一年高考開始了，4000余萬份高考試卷成績，還有背后1078萬考生的命運，都在各位閱卷組老師手中。

自1978年恢復高考，至今已有43年，高考閱卷拋棄了上世紀傳統(tǒng)的手改手核的方式，換上電腦開始無紙化閱卷。近幾年，全國多省陸續(xù)試點人工智能閱卷。未來，高考或許會拋棄人工，讓機器獨立閱卷。

這40多年里，技術是怎么改變了閱卷方式，高考閱卷有沒有變得更容易，考生有沒有得到公正對待？

一個人的“審判”

1977年，全國恢復了中斷十年的高考。

彼時的高考，保密工作并不完善。一門考試結束，監(jiān)考老師把收上來的答題紙摞好，用針線和牛皮紙裝訂起來，遮擋考生信息，封進密封袋。等到批改的時候，再發(fā)給閱卷老師。

恢復高考第一年的河北數(shù)學答題紙 | 來源：新浪看點

閱卷老師拿到答題紙，直接在答題紙上批改、核分。

那時的閱卷制度也不完善，沒有“雙批”“三批”的要求。一份試卷由一位閱卷老師手改手核，就決定了考生的命運。

但人工閱卷是個累活，一場高考下來，每個閱卷老師要批改逾千份試卷，頻繁翻頁導致的肩膀酸痛，讓常年伏案工作的閱卷老師們身體狀況雪上加霜。

后來，為了減輕老師負擔，也為了減少人為誤判，山東大學和重慶大學推出了一種自動閱卷設備，并在1988年應用于高考閱卷。

這種名為光標閱讀機（Optical Mark Reader，即OMR）的設備，能夠通過光學掃描和石墨感應技術[1]，識別答題卡上的客觀題答案，自動給考生打分。

南昊光標閱讀機（gif圖很大，請耐心等待） | 來源：騰訊視頻

1990年，高考實行標準化考試，把考題分成客觀題和主觀題兩部分。客觀題的答案寫在答題卡上，交給光標閱讀機處理，而主觀題仍然由老師手改手核。

客觀題機讀卡 | 來源：南昊官網(wǎng)

可手改手核的方式過于落后，不僅卷子流轉效率慢，批改、傳閱、核分環(huán)節(jié)費時費力，而且泄密風險更高。曾任職于某省閱卷組的Z老師在接受放大燈團隊（ID：guokr233）采訪時表示，試卷從考場轉移到閱卷老師手中，有許多環(huán)節(jié)，保不齊會出什么岔子。

直到世紀之交，計算機技術改變了生活，也改變了高考的閱卷制度，評卷進入無紙化階段。

眼藥水換來公平

1997年，山東大學起草了光標閱讀機行業(yè)第一個行業(yè)標準。第二年，苦于尋不到合適的生產(chǎn)商，山東大學決定自立門戶——成立山東山大鷗瑪信息產(chǎn)業(yè)有限公司。新成立的山大鷗瑪，不僅生產(chǎn)光標閱讀機，還涉足研發(fā)閱卷系統(tǒng)，將全部考生的答題卡上傳至電腦，實現(xiàn)網(wǎng)上閱卷，又稱無紙化閱卷。

1999年高考，廣西率先在英語試卷上試點網(wǎng)上閱卷。考生把客觀題答案涂在答題卡上，由光標閱讀機判卷，而主觀題則寫在另一張答題紙上，送進掃描儀掃描，傳給后方閱卷老師。而閱卷老師只需要坐在電腦前點點鼠標、敲敲鍵盤，就能完成評卷。

次年，廣西又把試點范圍從英語擴大到語文作文。云南、江西、遼寧等地也效仿廣西，在保送生能力測試等考試中嘗試網(wǎng)上閱卷[2]。

隨著先進閱卷技術的普及，行業(yè)很快進入了光標閱讀機的時代。

到2005年，各地中高考、公務員考試、司法考試，以及各類國家職業(yè)資格考試和技術職稱考試，紛紛采用標準化試卷、機讀閱卷[3]，給光標閱讀機帶來大量需求。

山大鷗瑪是國內(nèi)光標閱讀機的先驅，但國內(nèi)龐大的考試閱卷市場，可不是它一家獨享。同一時期成立的科大訊飛子公司廣東訊飛啟明、拓維信息子公司深圳海云天，還有以河北南昊為代表的衡水系公司，均得益于此，拿到大量政府和學校訂單，快速發(fā)展起來。（如果你對這個小小的產(chǎn)業(yè)感興趣，請關注放大燈明日文章，我們將為你詳細講述光標閱讀機的商業(yè)故事。）

轉變發(fā)生在2013年，全國高考實行網(wǎng)上閱卷，市場也發(fā)生了新的變化。

一方面，高考實行全部無紙化閱卷，主觀題與客觀題均在網(wǎng)上批改，而傳統(tǒng)的光標閱讀機卻只“認識”選擇題，無法滿足閱卷要求。

另一方面，光標閱讀機的速度已顯得捉襟見肘。因技術路線不同，光標閱讀機的讀卡速度為每小時5000張A4答題卡[4]，而掃描儀每小時掃描上萬張A3答題卡也綽綽有余[5]。

山大鷗瑪?shù)膾呙鑳x（gif圖很大，請耐心等待） | 來源：山大鷗瑪官網(wǎng)

所以，2013年以后，光標閱讀機的銷量開始下滑，高速掃描儀登臺亮相。

高考答題卡也從原本主觀題與客觀題分開的兩張合二為一，變成了一張大尺寸的A3答題卡。

掃描儀會掃描整個卷面，在后臺按區(qū)切割圖片?？陀^題直接機讀打分，主觀題通過網(wǎng)絡發(fā)給閱卷老師。

全面無紙化后的答題卡樣式 | 來源：鷗瑪官網(wǎng)

這種由“掃描儀+網(wǎng)上閱卷軟件”組成的無紙化閱卷系統(tǒng)，被各地教育考試院一直用到今天。

這與無紙化閱卷的優(yōu)點分不開。

無紙化閱卷系統(tǒng)能夠簡化閱卷流程。

掃描過的考卷，以照片的形式存檔，以網(wǎng)絡途徑傳輸，試卷的分發(fā)、評分、核分環(huán)節(jié)在線上自動完成，不需要繁重的保密運輸。

無紙化閱卷還能減少評分誤差。

中國教育網(wǎng)認為，無紙化閱卷在簡化閱卷流程的同時，還能防止老師交換意見，“從而減少評分誤差，確保評卷的質量和公正”[2]。

此外，閱卷軟件還能夠以程序的方式控制閱卷質量，如：通過彈窗提醒的方式，提示閱卷人增減批改速度；把已經(jīng)評過的卷子隨機抽出重批，評估老師閱卷準確率等。

更重要的是，由于閱卷現(xiàn)場看不到考生的試卷，也給保密工作帶來諸多便利[2]。

無紙化閱卷固然方便，但電腦屏幕的加入，又加重了閱卷老師的用眼負擔。

全國高考統(tǒng)一網(wǎng)上閱卷的2013年，河北閱卷組要在9天時間里批完44.98萬考生的試卷。據(jù)《燕趙都市報》的報道，2100名閱卷老師每天要在電腦前坐足8個小時，9天時間共用掉了幾千瓶眼藥水[6]。

既然老師閱卷辛苦，何不多聘請幾個老師分擔工作？

Z老師認為這不太現(xiàn)實，當?shù)亻喚砝蠋煹难a貼是按件計費的形式，為了保證老師的收入可觀，就必然要控制閱卷老師的總數(shù)。“考慮到閱卷工作對體力的要求，教育考試院一般只選擇年齡在50歲以下的老師閱卷?！盳老師補充。

近年來，人工智能技術快速發(fā)展，或許會成為解救閱卷老師的希望。

誰在雇傭AI閱卷？

人工智能閱卷的歷史，最早可以追溯到1996年。

美國杜克大學的埃利斯·佩奇設計開發(fā)出一款名為PEG的作文評分系統(tǒng)，是世界上最早智能評分系統(tǒng)。

到2005年，美國一家非盈利性考試服務中心Educational Testing Service（簡稱ETS）便推出了一個名為E-rater的機器評分系統(tǒng)，應用于GRE、TOFEL等考試。

該組織官網(wǎng)資料，該系統(tǒng)用到了人工智能技術給試卷打分。這個AI系統(tǒng)不光能指出考生的語法、用詞和拼寫錯誤，在作文題中還可以評價考生的文章立意、組織結構和語言風格[7]。

2016年，日本文部科學省宣布，考慮引入AI為日本高考判卷[8]。

而國內(nèi)涉足AI評卷的科技公司，有兩家。

一家是阿里。2017年，浙江外國語學院在一次考試中，用阿里的人工智能系統(tǒng)給11為外國留學生的中文試卷閱卷，并宣稱AI閱卷準確率已超過人類[9]。

次年9月，阿里又發(fā)起一場全球數(shù)學比賽，“閱卷老師”同樣是阿里自研的人工智能[10]。

另一家，則是發(fā)跡于教育的科大訊飛。

科大訊飛在早年便開發(fā)出口語測評系統(tǒng)，為多地普通話考試提供智能評分服務。后來，訊飛又把注意力從口語轉向文字，研究智能批改技術。

2015年11月，科大訊飛曾在安慶、合肥等地的學校試點用AI批改作文[11]；一個月后的科大訊飛年度發(fā)布會上，董事長劉慶峰又推出智學網(wǎng)，宣稱能實現(xiàn)全科閱卷、智能批改[12]。

語文作文智能評分流程 | 來源：科大訊飛智慧教育

2017年中考，湖北襄陽首次引入訊飛的人工智能閱卷系統(tǒng)。一年后，安徽首次把該系統(tǒng)應用于高考。

茲事體大，安徽教育考試院沒敢讓AI在高考中挑大梁，該系統(tǒng)主要用于作文題輔助閱卷，給老師“打打下手”。中安在線曾報道，“它在后臺對試卷進行評判，與老師的閱卷結果進行對照，如果偏差較大，會進行提醒?！盵13]

雖然人工智能暫時還是“輔助”角色，但并不影響各地教育考試院的采購熱情。自2018年起，科大訊飛先后中標安徽、河北、湖北等地的采購需求?？拼笥嶏w智慧教育公眾號文章中稱，該技術每年服務的中高考考生，已超過600萬[14]。

訊飛子公司——訊飛啟明中標湖北省教育考試院人工智能閱卷項目 | 來源：中國政府采購網(wǎng)[15]

Z老師也表示，當?shù)馗呖茧m然未曾使用過人工智能閱卷，但教育考試院的技術部門確實在對接相關事宜。

雖然暫時派不上什么用處，但往好處看，這些系統(tǒng)的采購價格都不貴——

2018年8月，安徽省教育招生考試院采購智能閱卷網(wǎng)評質量控制服務，價格為15.8萬元；
2020年7月，湖北省教育考試院采購高考人工智能評卷服務和研考人工智能評卷檢測服務，價格為20.3萬元；
2020年10月，河北省教育考試院采購人工智能AI質檢技術測試服務，價格為19.76萬元。

若按照每個高考閱卷老師補貼2000元計算，20萬元不過是100個老師的成本。一旦投入使用，將給教育考試院節(jié)省大量人力支出。

誰更有資格決定考生命運？

從前，考生的命運掌握在閱卷老師手心，他們答個卷都得想著閱卷老師的體驗——

答卷要用黑色簽字筆，閱卷老師看得更清楚；
寫字要寫楷體（至少要整潔），方便閱卷老師分辨；
答題卡要嚴格分區(qū)，讓閱卷老師理解作答順序。

即便如此，人工閱卷仍然不盡人意。

2014年高考，有浙江閱卷老師反映閱卷速度過快，“主觀題平均用時9秒，作文平均1分鐘判閱完成”。上海交通大學教授、21世紀教育研究院副院長熊丙奇稱此類問題普遍存在，甚至有人直言高考閱卷是“草菅人命”[16]。

2020年，一篇名為《生活在樹上》的滿分作文引發(fā)爭議，浙江語文評卷組作文組組長被舉報開課賣書，“既做教練，又當裁判”[17]。

把閱卷任務交給AI，對考生來說就是好事嗎？

與人工閱卷相比，AI不知疲倦、閱卷速度快，而且有標準統(tǒng)一，犯錯幾率也小。但是，AI“眼中”的標準，一定適用于高考嗎？

一方面，AI的偏見在閱卷中已有先例。

Vice曾指出，前述ETS的智能評分系統(tǒng)E-rater存在算法偏見——它更傾向于給中國學生高分，而給非裔美國學生、阿拉伯學生和西班牙學生低分。后經(jīng)ETS研究，發(fā)現(xiàn)這是由于中國學生作文篇幅更長，使用的句式和詞匯更加復雜[18]。但拗口的句子和華麗的辭藻，顯然不是高考作文的“金標準”。

另一方面，AI閱卷系統(tǒng)的“智能程度”，還有待檢驗。

2020年，美國一款服務于兩萬所學校的AI閱卷系統(tǒng)被指存在漏洞，考生只要列出相應關鍵詞，就能被系統(tǒng)識別并獲得高分[19]。事實上，在中國高三學生群體中，“高分作文模板”也已流行多年，AI到底能給高分還是判定“抄襲”？一旦再出一篇半文半白的文章，AI讀得懂嗎？

根據(jù)科大訊飛在2021年4月公布的數(shù)據(jù)，人工智能評閱語文作文的人機評分一致率為99.33%[14]。但若全國均使用人工智能閱卷，今年上千萬的考生中，最終也會有7.2萬人受到AI的不公正對待，誰來保證少數(shù)考生的利益？

2020年8月，教育部考試中心稱要“堅決維護高考評卷和命題工作公平公正”[20]，但是要做到絕對的公平，靠人很難，靠AI也很遙遠。

本文（含圖片）為合作媒體授權創(chuàng)業(yè)邦轉載，不代表創(chuàng)業(yè)邦立場，轉載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。