E-mail
全国统一客服热线
service@igmat.cn
400-728-0020
chatGPT 让我们躺平还是躺赢?

上篇对2月10日黄卓明大仙GMAT老师和戈弋老师直播内容前半部分编辑成文《GMAT考试为什么突然增加了大量“港澳”考生?》本篇将继续对大仙老师和戈弋老师的直播中关于“chatGPT”议题整理成文,以飨读者。


接下来聊的人工智能chatGPT这个话题其实跟上一个话题是紧密相关的。最近一两年,我对我工作所面对的GMAT考试的科学性及考试本身的价值越来越怀疑。为什么会有怀疑呢?以前对这个考试的科学性我是觉得非常赞的,尤其和中国的考试相比,因为我们那个年代的高考,中考,死记硬背的内容太多了。GMAT考试起码死记硬背的比例没那么大。但是,这两年我做了几个事,一个事是我自己每年都参加高考。第二个事,我从前两年开始订阅教育部考试中心出版的一个叫《中国考试》的杂志,通过这个杂志来了解中国考试的一些前沿信息,直到前年我惊奇地发现,高考现在反而越来越少考死记硬背的内容,是不是真的东风要压倒西风了?


去年参加高考考了政治、历史二科。我是一个理科生,高中时候没学过这两科,但是全程没有遇到一道题是因为没学过某个知识点而导致你没办法做题的,整个过程全部都是分析,全部都是某个原理的应用。但是你去看GMAT考试,虽然号称不考语言,但是几乎所有的考生都会有过因为不知道一些钻牛角尖的语法知识,而导致对某个题全局的努力前功尽弃的挫折感。比如,help sb 后面接do还是to do?如果你没学过这个搭配,就没办法做对,因为你没办法推理出来,虽然这种题的比例在GMAT中很少。但是它的确存在于GMAT考试里面,这样就会在很大程度上放大我们去考这个考试的一种不确定性,偶然性。我想作为一个非母语国家的考生来讲,因为这种东西不知道导致整个题选错了,这对你一定是一个非常大的打击,我都已经做到99%了,就一点小东西就给我坑了。


再深入思考一下,是不是这些考试的内容、形式真的就没法改变呢?我认为根本不是这样的。像高考这种35元钱一科考试费用,一年上千万人考的大规模考试都能缓慢地改革,那么你美国这种收2000元钱一次、三个小时的考试怎么就不能改呢?他之所以不改的原因,第一,他有一种很傲慢的、高高在上的、虚妄的文化自信。他一直认为自己是最最先进、最最牛逼的,包括他那套自适应模式。九几年开始到现在已经30年了,现在自适应技术都已经到了四五代了,GMAT考试还在用第一代技术。第二,没有其它考试跟他竞争。现在这么多年过去了,国际上搞标化考试就那么几家:ETS、IELTS,GMAC,这几家也不是直接的竞争关系,直接怼到对方脸上的竞争就只有GRE和GMAT了,再就是托福和雅思。即便有这个竞争,中国考生还得舔着脸去抢考位,另外也没有别的国家开发出来公信力认证范围接近现有考试的东西去替代它,这是一个很大的问题。最后一点,就是社会的需求传导到考试还很慢,所以为什么我们要聊人工智能呢?要从以下几个方面谈:


1.考什么才能适应未来的人工智能

我觉得在考试内容方面,目前考试里起码有三分之二的东西在人工智能时代是没有价值的,就比如考固定搭配,chatGPT轻松秒你啊。我做过很多测试,我发现我的学生读GMAT中CR题的选项精度大大落后于网易有道翻译。那就更不用说跟chatGPT打了,即纯语言层面的元素在考试里的价值已经直线跳水。但是它还是有点价值的地方,比如阅读的过程,你作为人要判断重点,这个chatGPT应该很难做到,当判断重点之后,你要去研判文章中各个观点相互之间的关系,我感觉即使chatGPT能做到,可能也没有那么的精确,因为语言去传递观点的方式是多种多样的。chatGPT通过抓取一些关键信息形成判断,可能平均值会好于人类,但是它处理一些更精准的情况可能不如人类。有机会可以用chatGPT做做GMAT,GRE题,可能有点数据出来就可以再深入聊聊这个话题。我查看了一些这方面的论文,基本上有一个共识,就是如果这个事的结构性比较稳定,chatGPT就会表现得非常好。但是如果要考虑的变量比较多,需要的决策过程比较长,推理链条比较复杂的话,chatGPT交付的结果就会相对差。


综上所述,美研的标化考试如果不再去深刻地改变它的考查内容的话,它会越来越跟社会实际脱节。如果你考的东西既脱节于未来这个真实的生活社会,也离社会生活场景太远了,而且所考的这些没用的东西占的比例太大了,那么考生将为这样的考试备考付出很多无谓成本。过了一定的点之后,一定会有越来越多的人退出这种考试。希望我们的声音能传递到考试的主办方。


2.GMAT/GRE是人工智能性很高的考试吗?

虽然GMAT、GRE号称机考,GMAT号称有自适应模式,但是它们的智能水平与我们当前社会的科技能支撑的智能水平差距是非常大的。


虽然GMAT,GRE考试自称有自适应,但是以现在的人工智能的算力及模型水平,其实考试呈现方面完全可以做到更好的交付。目前的考试只能是作为考生反应的一个记录工具。他并没有用目前先进的人工智能来改善考试的区分度和实现人才选拨的针对性。展望未来,如果人工智能能融入到考试里面,将大有可为。比如之前举过的例子,同一道选择题,虽然两个考生都选错答案了,但是有的考生可能是因为某个固定搭配不记得而功亏一篑,还有一个考生可能是完全不会瞎蒙选错的,现在的GMAT考试完全不具备区分这两种情况的能力,以前可能会说样本大了,自然就公平了,其实根本就不是这样,样本再大,也有偶然性。


如果GMAT考试引入人工智能,我觉得这个问题就可以解决了,比如,两个考生面对同一道题,其中一个考生发现,他离做对这个题只差一个公式忘了,那么如果现在,他就只能非黑即白,忘记这个公式做错就错了,如果考试把人工智能引入进来,交互性加强了,完全可以这样:这道题分值是10分。如果考生愿意少拿2分,就可以向计算机求助,让计算机给考生提供这个公式。而另外一个考生是完全不会做的,他就得0分,只忘记公式的考生得8分,这样的评估肯定比两个人都零分精确多了。再举一个例子,有个题五个选项,第一个考生是在CD中犹豫。第二个考生是完全不会的。按现在,如果第一个考生犹豫后选错了,那么两个人都得零分,如果第一个考生选对了,那么得满分,另外一个考生得零分,这样是充满偶然性的。如果有智能交互,第一个考生在选了D之后,如果愿意放弃三分可以换取向计算机求助,他可以问计算机答案是不是D呢?计算机就答他不是D。这样,答案不就选C了吗?也就是说这个考生就拿了7分。这种形式比原来的非黑即白的、非常粗的测量刻度的计分形式要好得多吧。


其实,引入人工智能并不会占用更多的人力资源,也没有非常高的经济担负,而且从技术上讲,这种功能的实现对算力的要求也极低,所以,人工智能是否能引入考试中来,很大程度上取决于主办方本身的意愿而已。


3.人工智能的介入对未来专业选择的影响

在人工智能条件下,未来专业选择一个比较好的方向就是跨学科专业。首先,如果你想做科研,或者说你家里不差钱,不指着你读这个学位之后赚钱的考生,那你就按爱好原则选专业就好。如果你还是要指着读完学位之后赚钱,你要考虑以下几个原则:

第一,无论你读哪个专业,你读完研之后能不能干过chatGPT?你如果确定自己读完研之后干不过全chatGPT,你就不要读这个专业的研究生了,因为这样只能是费时间,举个最简单的例子,以前大学里有英文翻译学院,我曾在2010年就说过,这种学院就是在害人,还有中国大学长期以来都开设的英美文学专业,我曾在2002年就说过这种专业也是害人,因为你教出来的人是没有比较优势的,就算没有chatGPT出现,你一个中国人到18岁才去研究英美文学,经过四年你能变成一个英美文学上有什么造诣的人?


第二,就是你如果打不过chatGPT,就要考虑加入它,这也是一个选项。如果你原有的知识储备跟人工智能是相关的,你一定要去发展它,加深你的一个护城河。比如,根据门户开放报告,现在美国读研究生的留学生选择最多的专业有数学、应用数学、计算机相关的技术。如果你原来读的专业是能够接入到人工智能方向的,而你自己也不讨厌这个研究方向,那么肯定要往这个方向来走,即打不过就加入,举个例子来讲,我国教育行业,你现在再去选某个专业比如英语教育,是真的没什么意义了,如果一定要选,你可以选教育科技,即教育与科技的结合方向,或者互联网与教育的结合,也就是说必须要多研究某个前沿的东西跟教育的结合,跟他的交界点的学问,我觉得这才会有一个更好的选择,


第三个可能,那如果你说我不想加入呢?那你就去他暂时覆盖不到的地方是吧,说白了,你就面临两个选项,打不过就加入,要么你就不要打。那么什么是不打了?不打就是你去搞一些他不关心、覆盖不到的地方,那这些地方是哪里呢?就是所有需要输出情绪价值和操作动手的地方。比如,心理、医学,你能指着chatGPT给你动手术吗?你就算去拔颗牙,你敢让chatGPT给你主刀么?那也不太可能,当然很多人说医学这个行业太苦了,这是另一回事。另外,教育跟人打交道的场景相对多的一个方向,比如学校管理。在这个方向中,chatGPT可能是作为你的工具,他不是你的替代。


4.展望chatGPT介入考试


选拨考试中引入人工智能,完全可以将原来题目式变成解决问题的场景方式来考试,比如商科类考试,建立一个business model,考生来解决实际问题,这个model对你每一步都给予反馈,告诉你这一步的结果是怎么样的。对于GRE考试阅读,完全可以做成交互式的,考生读完一段阅读,告诉计算机读到了什么内容,计算机会告诉考生读的东西哪里不太对,并帮考生进行矫正,考生再告诉计算机矫正后是怎么样的,这些都完全可以做到。
人工智能技术的引入会让测量的刻度比原来那种粗糙的方式精确得多。说白了,其实未来考试的一个很重要的内容就是看谁更会用chatGPT,谁更善于去优化chatGPT出来的结果,这个可能将变成一个单独的科目,妄图把chatGPT删掉,把它屏蔽掉是绝对不可能的,也不符合社会发展的潮流。目前GMAT,GRE考试的内容在将来完全能用chatGPT解决的,我觉得以后就不要再考了,因为这个就浪费时间了,比如词汇问题,如果AI的查找比人脑记忆性价比更高,那就应该交给AI。让人脑腾出来做更高级的事儿,这个是人工智能应该去走的一个方向。


相对于理工科,商学院选拨学生,学术性要求低,教授对于学生的科研能力的要求也相对较低,教授可能更在乎选拨上来的学生能否听懂商学院的课程,是不是具备听他这门课的一些最基础的前置知识,那么从这个维度来看,我个人觉得商学院与其考什么奇奇怪怪的固定搭配小语法,还不如考一点最基础的商业知识,因为起码基础的商业知识对于听懂商学院课程的相关性更高。甚至我觉得以后GMAT,GRE考试应该下探到高中,比如高中生申请美国本科商科,如果前置搞点GMAT就很好,相关性非常漂亮。其实,高三学生考完SAT之后,学GMAT 、GRE绝对愉快,绝对比很多中国大学的大二大三学生轻松得多。这就很说明问题了,如果一个考试它并没有因为你读过大学有什么优势,那就说明它和研究生的相关性就没那么强。如果考试官方自己不对这个考试形态进行改革的话,这个考试的适用性、关联程度的削弱,即使不会让这个考试瞬间消失,但它肯定会慢慢让人们对这个考试本身失去信心。即使教GMAT已经20年教龄的我,现在对这个考试的信念也开始慢慢坍塌,我想我不是一个个例吧,肯定也有不少人跟我有一样的想法。那么,我们应该寄望于什么?我觉得可能希望不在这些资本主义国家的商业考试机构里,希望可能还真说不定在中国高考,或许中国高考会走的更远。我预测中国高考有可能会在局部实现智能化。中国高考的全面智能化或许不太可能,因为高考涉及的人太多了,而且中国高考考试费用太便宜了,但是如果高考科目费用收到两三百一科,中国高考就能搞得更高级了,比如我们广东教育部门正在做科大讯飞提供解决方案的人机交互的口语听力考试,虽然题目出得不是很专业,但是,他引入了人工智能这个苗头很好。


再往远处讲,大家可以思考这样一个问题,凭什么人才评价话语权要交给一个不太了解我国的工业、商业,及各服务业场景的一个外国考试呢?以前我们因为啥都没有,不交给他也不行,我们也没有钱去开发,但是,在未来,我们是不是要在软的评价标准上要做一些事情,或者说我们应该在评价权这块来发挥更多的标准。比如,中国国内授课的英文MBA,凭什么要人家阅读速度达到GMAT的要求?这没有意义嘛。如果我是MBA项目授课老师,我肯定宁愿收一些对商业世界更了解,对自己要解决的问题认知更清晰的学生,而不是英文案例阅读速度更快的学生。


那么回到这个事情的源头上面,就是这个评估权应该更多的交给利益的直接相关方,而不是说外包到一个这么遥远的跟我们国家当下不沾边的一方。


在未来,其他项目靠标化考试考察所占的比例一定会下降。同时,随着研究生项目对自己要选拨的人的模型越来越清楚,很多选人决定权会重新回到研究生项目自己手里。随着人工智能的出现,项目选拨测评的成本会下来,一旦成本下来了,这些测评会变得可能,当然这个事它不会马上发生,它需要一个过程,但是需要多久呢?我觉得像这个chatGPT这类的AI杀进我们的生活到让我们意识到它可能会改变我们的很多工作场景,可能就需要两三年,这里有一个有趣的逻辑,就是chatGPT本身它又会加速chatGPT这类东西的发展,就是用人工智能来加速人工智能。所以它是一个指数迭代的关系。也许二三年后,我们再来聊这个话题,你就会发现我们两年前觉得还挺遥远的一些东西已经实现了。