雷丁大學的研究人員透過在考試中提交人工智慧撰寫的答案進行了有趣的研究。結果比人類學生的結果好得多,而且教授們無法區分人工智慧的答案和人類的答案。

研究人員創建了 33 個假學生身份,以提交未經編輯的人工智慧產生的答案。答案是在 ChatGPT-4 的幫助下產生的,用於本科生心理測驗的線上評估。研究人員以簡短和論文的形式提交了 63 個問題的人工智慧答案,而批改論文的教授並不瞭解這項研究。

院校不會恢復手寫考試

不知情的大學教授們只發現 33 份試卷中有一份是人工智能編寫的。與此同時,其他 32 份試卷沒有被發現,而且得分比真人學生還高。實際數字顯示,83% 的人工智能編寫試卷得分高於真人學生。

另請閱讀:中國教育人工智能應用在美國市場取得進展

這項研究由 Etienne Roesch 教授和 Peter Scarfe 副教授領導。Scarfe 表示,他們的研究表明,人工智能對學術評估的完整性以及人工智能將如何影響學術評估具有國際重要性。他說,

“我們不一定會完全恢復手寫考試,但全球教育行業需要在人工智能面前不斷髮展。”

斯卡夫提到,大多數機構已經從傳統程序轉向確保更公平的評估。兩位教授都強調,他們的研究結果是“對教育工作者的警示”。

人工智能論文檢測率較低

研究人員透露,人工智能論文幾乎無法被檢測到,因爲其中 94% 的論文沒有引起檢查人員的擔憂。發表這項研究的《Plos One》雜誌表示,較低的檢測率很可能是高估了。它說,

“這尤其令人擔憂,因爲人工智能提交的論文得分遠高於真實學生提交的論文。”

該期刊還指出,學生可以使用人工智能作弊,並且不會受到懲罰。他們也可能比那些沒有使用人工智能的誠實學生獲得更高的分數。在這項研究中,人工智能生成的答案通過虛假身份提交給一年級至三年級的模塊。人工智能在第一和第二個模塊中的表現優於人類學生。

然而,在三年級考試中,人類的得分更高。研究人員表示,這與人工智能不擅長“抽象推理”的觀點一致,至少在目前的情況下是這樣。

人工智能仍然缺乏推理能力

研究還指出,人工智能的推理能力會隨着時間的推移而增強,而其可檢測性則會下降。這將使維護學術誠信變得更加困難。研究人員表示,這項研究可能會終結帶回家或無人監督的考試。

羅斯奇教授表示,教育部門需要就學生如何在工作中使用人工智能達成共識。他堅稱,在其他領域使用人工智能來維持全社會的信任也同樣如此。

另請閱讀:應對高等教育入學懸崖的技術解決方案應運而生

雷丁大學教育副校長伊麗莎白·麥克克魯姆教授表示,學校正在限制家庭考試。他說,學校正在努力開發其他方式,要求將知識應用於現實生活中,“通常是與工作場所相關的場景”。

McCrum 澄清說,學生將被允許在某些評估中使用人工智能,以便他們知道如何合乎道德地使用它。然而,其他作業不需要使用人工智能工具。教授說,這將有助於提高學生的人工智能素養,並讓他們爲現代職場要求做好準備。

Aamir Sheikh 的 Cryptopolitan 報道