下载客户端

AR(STAR)测试结果到底准不准？我们请30位花友聊了聊亲身体验

2021-08-10 17:15

来源：澎湃新闻·澎湃号·湃客

原创花友们小花生网

英语启蒙圈儿的爸爸妈妈们对 STAR, AR, GE, Lexile 等，这些“鸡娃术语”一定都不陌生。我们经常在社区的原版阅读经验帖里，看到花友们秀出娃的STAR测试报告，看到娃的阅读水平，肉眼可见的进步，具体的启蒙成果让人更安心…

但是英语小冰发现，在用 STAR 测评系统，帮娃判断英语阅读水平的过程中，花友们对于 STAR 测评结果的准确度，评价并不统一…于是在社区发起问答「大家觉得 STAR 测试的结果准确么？来聊聊…」，了解下来，参与讨论的花友观点主要分为以下2种 ——

一部分花友反馈 STAR 测试的结果 “不准，数据波动太离谱了…”

也有花友觉得 “还挺准，但要好好分析测试报告的各项数据指标…”

「准」与「不准」之争，两派花友各有依据，小冰精选了10则具有代表性的回答，相信可以为大家了解 “真相” 形成参考，一起来看看吧～

讨论开始之前，先快速了解下 “STAR 测评系统”是啥

“STAR 测评系统” 属于美国著名大数据在线教育公司 Renaissance（睿乐生）。

简单来说：STAR 测评系统，是用于评估孩子的GE值。我们可以利用这个分值，来判断孩子英语阅读水平，方便我们给孩子选择适合他们的英文读物和听力材料。

目前，美国三分之一的学校、英国近一半学校以及全球96个国家超过5.2万所学校都在使用Star Reading Assessments（以下简称为“STAR测试”），终端学生用户达 1800 多万余人。它积累了 28 亿真实学生数据，受到国际著名教育和学术机构的广泛研究，被认为是最权威的英语分级阅读和测试产品。

使用 STAR 测试，我们可以方便、快捷、准确的量化孩子的阅读水平，便于爸妈们调节阅读和听力材料，在提升英文水平的过程中少走弯路。

STAR测试对 12 年级（国内高三）及以下独立阅读者的阅读理解和技能的评估，主要跟踪五个阅读能力领域的发展：单词知识和技能、理解策略和结构意义、分析文学文本、理解作者的创作、分析论点和评估文本。

这套系统的最大特点是采用计算机自适应方式（Computer Adaptive Test）出题，题目的难度随着答题正确率动态调整，正确率越高，后续题目越难；反之则题目会变简单。所以可以更准确地反映出孩子的真实水平。

与此同时，系统的数据库实时更新，可以与英美学生成绩比较，从而得知小朋友在世界孩子中的水平。

STAR 测试考虑的因素多，结果也相对其他测试工具更准确，可以算是英文原版路线家庭必备测试工具了。

注：下文中提到的GE值，GE（Grade Equivalent）：是STAR测试报告中，最被常用的数值，评估阅读水平处于美国学生的年级数值，范围为K~12.9。比如 GE 值为 2.7 ，表示被测试者和美国二年级第7个月学生的平均阅读水平相当。

因为“数据波动大”、“测试题有套路”等原因

我们感觉 STAR 阅读测试结果：不太准…

“不准，数据波动太离谱了”

@晶晶tina

女儿 10 岁，9月 GE 值为 3.7

说起 STAR 测试，经历了欣喜 — 欣喜若狂 — 失望 — 无视 — 反感，五个阶段。

欣喜：最开始测试时，孩子刚能读一句话的绘本故事，为了报英语图书馆而测。那时候 GE 值就有 2.3（相当于美国二年级第 3 个月学生的平均阅读水平）。

欣喜若狂：读了大概两个多月，为了检测她的数值，团购了三年期的账号。眼看着 GE 值从 2.3 涨到了 3.7（相当于美国三年级第 7 个月学生的平均阅读水平）～这时候的她仅仅能读初章书《神奇树屋》，不能裸听任何音频。

失望：又过了一段时间，能读高章书《纳尼亚传奇》和古罗马、古希腊历史，水平应该是大涨，机构给学员统一测试了，GE 值 3.7，纹丝不动。我失望之余看看其它牛娃的结果。学而思未来小组的牛娃 PET 优秀，此时 GE 6 以上的书随意读，GE4.1；能读 GE 7 左右的书籍的牛娃，GE4.6，据她妈妈说水平差不多的同班同学GE是10.4。这一年孩子水平肉眼可见的进步，但 GE 值就是不动。大家拿到报告，都特别失望。其中一个妈妈直接没有续下一年的课程。

无视：转眼间又过了半年，中间测过一次 GE 值 4.0。这期间加大了英语学习的力度。此时的她，虽然做 A3000 的 570L 偶尔还会记无效阅读，但整体水平比之前的肯定要进步太多。报线上课测试 GE 4.5。孩子直接说这个数值比她想象的要差很远，原版书都可以读，明显到了 read to learn 的阶段。她直接表明，GE 对她来说就是一个无聊透顶的数字，不要看的。

反感：孩子的 A3000 蓝思值已破千了，准确率依旧很高，经常拿到班级第一；原版小说、美剧已经进入随意听看阶段；英文写作，拿给机构的评测也能达到G4级别；一对一口语在线老师评价她也是到了深入和自由探讨话题的阶段。同学妈妈打电话告知他家孩子已经在一家原版机构暑期报名上精读写作课，GE 值已经由3月初的 2.0（那时候还不能看字多的绘本，写作完全不会），到 6 月的GE 4.0。据同学妈妈说这个期间只看了原版电影，上了《新概念》第一册，上了PET 长期班（觉得难，不上了，转读 RAZ）。正好，我也对这家机构很有兴趣，目前正在暑期班阶段考察，进机构又得重新测GE，测完后一口老血差点吐出来，GE 值 3.7。

确实 GE3.7，这个数值孩子经历了三次，分别是刚能读《神奇树屋》第一本（GE 2.3）、刚能读《纳尼亚传奇》（ GE 5.2）、A3000蓝思值破千（看至少GE 7 以上的文章）。

总之，倍受推崇的 STAR 测试在我家孩子身上就是一个笑话。如果不是要报班，是绝对不会让孩子再做这样的无聊测试的。

“有测试的时间不如多读两本书，

更有利于保护孩子阅读兴趣”

@傅傅的小叮当

儿子 6 岁，11月中旬 GE 值为 4.5

11月15日，我家儿子 STAR 测试 GE 值 4.5，小分都达到 95 以上，阅读速度为142个单词/分钟。

比10月1日测试进步了0.3，现在的进步比较难，必须冲百分之百才行。每月泛读量够了，目前看来也只有记忆单词和精读raz能把知识点学全。

虽然我一直在用，不过我觉得不准。STAR 测试分数上涨代表娃的部分阅读能力的提升，对于选读物有很强的参考性。

但，个人通过翻看网站 STAR 测试结果，以及通过实际测试，发现有以下 3 个特点：

1. 题目重复，有套路。我陪孩子测试的时候，看过数道重复的题目，相信多次测试后聪明的娃也会摸清套路，导致分数提升有一点水分；

2. 低年级题目难度低，3.0以上分数提升难度大。grade1的题目，小项90分左右能拿4.0左右，小项全部都接近满分才能到5.5以上。对于grade1的娃，达到3.0相对轻松，拿5.0实属不易。所以理论上，有实力的娃通过改年级，做更高难度的题目，应该能拿高分。我们有一次因为系统错误改到grade2，发现题目确实难度加大，结果因为水平未达到，分数和grade1接近；

3. 兰斯指数普遍偏低，GE值和兰斯难以对应；

综上，善于利用 STAR 测试，毕竟不像做真题，能分析错误在哪，花二十分钟只能测试阅读水平，做多了还容易上头，有测试的时间不如多读两本书，更有利于保护孩子阅读兴趣。个人感觉 STAR 最好是两个月测一次，测完调整一下娃读的书本难度。

我感觉娃启动的晚，分数不高，还是缓慢上升 ing，只要看书不停止，测试自然会有好的结果。

“我一直感觉 STAR 测试结果虚高，

女儿 GE 值5.8，却还没有入章”

@Rosie Wong

女儿 7 岁，目前 GE 值为 5.8

我一直感觉 STAR 测试结果虚高，我家女儿现在 GE 5.8，但才刚读到AR2-4的《大侦探内特》《小猪梅西》《第二图书馆》主要是娃嫌章节书太长，有畏难情绪。

2019年7月中旬，女儿第一次完成 STAR 测试时，当妈的还真小激动，mark了一下，当时女儿6岁，GE 3.1。

之前一直迷迷糊糊带娃学英语，却始终拿不准她究竟处在什么水平。读完了“廖单”，《小猪佩琦》和 Maisy 动画配套绘本，《牛津树》读了市面上最常见版本的1～6级，《我的第一个图书馆》读了不下三四遍，大部分时间都是老母亲读为主，小家伙懒洋洋地欣赏。

放养状态持续了好久，直到临近暑假重燃鸡娃热情，打算两个月好好给小朋友恶补一顿，把英语尽快带入自主阅读初章的阶段。

二三十分钟的测评时间，加上一年级题目就全是文字，时不时还来一小段阅读，枯燥无插图、无语音，小朋友最后实在坐不住，我硬拽着做完最后8道题。

虽然分值只是参考，但根据 ZPD 结果坚定了带娃向章节书冲刺的决心和勇气！

“一年级儿子 GE 4.7了，

同年考完 KET，却被阅读成绩啪啪打脸”

@Joe和Terence爱读书

儿子 6岁时， GE 值为 4.7

晒两张图，看数据吧，去年 9 月份，儿子刚上一年级时，测出的 GE 值为 4.7。

不出意外，去年11月份KET考试至少保底优秀，有望冲刺卓越吧，结果啪啪打脸。

有人可能会讲，STAR 只测阅读能力啊，看看 KET 阅读的得分，就算排除一些低龄娃考场的意外因素，我也一直觉得AR虚高，一年没有测过了，踏实读书、认真积累比什么都重要，不必迷信 STAR 的神话。

“也别光说STAR，阅读测试这东西

我认为还是不要测得太勤”

@爱读书小核桃miki

女儿 8 岁时，今年8月底 GE 值为 4.1

目前女儿只做过两次阅读测试，觉得兰斯至少不准。感觉这东西还是不要测的太勤。这两次测试我隔了两个月，主要是入桥梁和入初章，我想判断一下是否进步和适合入初章。

今年 7月1日测出来 GE 2.7

7月6日，女儿开始阅读桥梁，裸听桥梁，共计 111 本。截止8月29日，初章阅读和裸听62本。

今年 8 月 29 日测出来 GE 4.1

2个月娃读和听了111本桥梁，所以我们入了初章。检测结果我只参考GE，不太关注兰斯，因为兰斯第一次测才175，不是我盲目自信，是我觉得娃真的不止175，《牛津阅读树》都自主阅读牛9了，怎么也不至于才175。

第二次兰斯575，2月涨400兰斯？我是不太相信的。我只在意变化了不管差距多少能看出来至少进步了，以及用测试选书这个作用。下次测试我打算在想进去中章的时候再测。

我们用下来还挺准，

但要好好分析测试报告的各项数据指标…

“STAR 测试结果，基本符合女儿的阅读水平

也能帮我接下来，为娃更好地选书”

@旋子fh

女儿 8 岁，今年9月初 GE 值为 4.1

9月出女儿测过一次，测试结果是 GE 4.1。

很早就知道这个测试，我是持可测可不测心态的，因为娃的阅读水平老母亲心里是最清楚的呀！我只买经典的、久经验证的书，而且不会囤太多书，一般是提前囤1-2套，找准时机或者做好铺垫，引导娃进阶。说白了，我是关注书的AR，而不是娃的。之所以团购了一次测试，也是为了下一步更好地选书。

截至目前，桥梁和初章我只买了 Nate The Great , 兰登三四, Amelia Bedelia, Junie B . Jones, 《神奇树屋》《老鼠记者》娃也只读了这些，当然还有每天的 RAZ。

上面的书中只有 Amelia Bedelia 买多余了。当时是我自己怕娃读不了《神奇树屋》所以囤了一套桥梁打算过渡一下，结果娃读完 Junie B . Jones，翻了翻觉得没意思，直接拿起“树屋”开始看了，到现在还在吃灰。

而其他的几套书（除了兰登），都是反反复复听和读的，超级喜欢，不愧为经典！只买经典除了不会买错，还省钱（这个很重要），省眼睛和时间（这个更重要！），所以我的做法是选出经典套装书，按AR值排好顺序，然后等着娃来闯关。如果闯不过去，再补充 AR 值小一点的书。接下来我准备了几套书的音频，到时候看孩子喜欢哪个再买哪个。有 Dragon Master, Who Was, I Survived, Roald Dahl。其实还想买《树屋百科》娃虽然深爱树屋但明确表示不想读百科，还是对 nonfiction 非虚构有畏难情绪吧。

可能我女儿比较善于猜词猜意思吧，测试结果我觉得基本符合她现在的阅读水平。但那些题真的不能代表全部的阅读能力。比起测试，我觉得还是关注在阅读上更好吧！

“定期，有时间跨度地去测 STAR，

娃的阅读进步看得见”

@Sunny Lph

儿子 5 岁，今年3月中旬 GE 值为 4.8

孩子目前五岁三个月，一共做过三次测试，时间分别是2020年3月 — 2020年6月 — 2020年9月，隔3个月一测。

这三次均以GE值来看，分别是 4.8-4.5-6.1，半年升了2个年级。

作为老母亲，我自己的感受是，第一次虚高，第二次符合心理预期，第三次虚高。作为比较了解孩子情况的陪读老母亲，我的心理预期值分别是 3.5 上下，4.5 上下，5-5.5 之间。下次测试，应该是12月。心理预期是稳定在6上下。

说是题目自适应，但是还是会出现分数波动，我觉得可能还是有一定原因，先分享我想到的4点：

1. 年级选择：前2次都以Grade1做的，第3次是Grade2。我问过客服，说年级只有那个数字，表示同年级超过人数百分比那个PR有影响，因题目自适应性，别的数值没影响。我个人觉得不是的。可能对于出的题目的初始难度就不一样。然后根据孩子做题情况有调整。但是，如果孩子差不多可以驾驭所选年级的时候，选择高年级极有可能比选择低年级出来的ar高。下次试试班级选择三或者四年级试试。但我担心会有一些题目超出他认知……

2. 孩子状态：孩子做题时候的精力是否充沛，心情是否平和，是否配合等可能也都有影响。

3. 是否旁边有人提醒他要仔细：这个可能不是普遍因素。我家，我发现他之前测试，有时候真是因为不细心。这次测试，我有提醒他，仔细看题，每道题都看完再选。我觉得这次可能减少了一部分他此前因读题不仔细，没看完题就选择的丢分。

4. 运气：里边一定有孩子不会做的题目。有时候蒙对几道和没蒙对，甚至还因粗心做错几道，结果可能就差很多。

这次出来的阅读速度那一项比之前两次提高了不少。之前都是140+/分钟，这次是170+。而且这次还是我多次让他仔细看的提醒情况下有这个速度。可能阅读速度还是有提高。蛮开心～

“用STAR测试报告，了解孩子的阅读发展情况

还是可以的”

@pastpass

儿子 7 岁，现阶段 GE 值为 7.6

我觉得还不错，很精确地定位当然不太可能，毕竟全是单选的标准化测试题，但是用来看孩子的阅读发展状况还是可以的。

我家间隔半年左右测试一次，买了三年的账号，到现在测了4回。需要我坐在旁边帮忙点选项并翻页，能很明显地看到随着年级从K到2，题目的侧重点从词汇逐渐转向作者意图和场景设定这种需要更多"精读"来练习的东西，对逻辑思维能力有了更高的要求。

窃以为评分标准是比较宽松的，毕竟是以全美平均水平作为基准，光看报告是不够的，陪着看一遍孩子答题才知道他的弱项都在哪里。