/ ENGLISH, THINKING

关于词汇量的陷阱

词汇量在文本中的出现是呈现正态分布的。好消息是你只用掌握少量单词,就可以认识文章中绝大部分的单词。坏消息是,这只是一个美好的陷阱。

我们经常会看到类似这样的统计数据,左边一列是掌握的词汇量,右边一列是普通文本中认识单词的比例:

1,000 72.0%
2,000 79.7%
3,000 84.0%
4,000 86.8%
5,000 88.7%
6,000 89.9%
15,000 97.9%

2000个单词,甚至1000个单词就可以认出七八成的单词了。好似,我只要会2000个单词,就能看懂八成的意思。但为什么一个掌握2000甚至4000单词的人,根本看不懂一篇原版英文文章呢?

看懂是一个是否问题

对一句话、一篇文章的理解,是一个“是否”问题,而不是比例问题。即要么懂,要么不懂。不存在懂80%的说法。所以,如果一个20个单词的句子,有2成的单词,即4个单词不认识,很可能这个句子整体就不理解了。

信息在单词上的分布不均衡

信息在单词上的分布是不均衡的,即很多常见单词是没有信息量的,比如the,a,do等,但它们出现的比例却很高。因此即便认识一个句子8成的单词,但很可能只获取了5成的信息量。5成信息量的情况下,大概率你是不明白的。

看懂是一个近似的&&关系

一篇文章能看懂,是在建立在近似所有语句都懂的情况下的结果。比如10句话有2句话不懂,你可能整体就不懂了。因此,有10个句子有两个句子不懂,那就全懵逼了。

不懂的单词是一种干扰

换个角度看,即便是一篇中文文章,如果故意在里面添加奇怪的符号,使用拙劣的排版,你读起来也费劲。也就是说,即便这些不认识的单词没有信息量,也是一种干扰。至少是一种心理上的干扰。

词汇量与看懂的概率

在上面层层限制的情况下,词汇量量和看懂概率的关系就远远没有那么乐观。也许4000的词量,能看懂一篇原版英文文章的概率小于10%,而1万的词汇量,可能看懂的概率就能达到80%了,从这个角度看,再提升6000个单词,是十分划算的!

从应用的角度看,词汇量和看懂概率的关系更有价值,这个关系,有空我可以建立一个模型进行计算,相信对词汇量的认识更为科学。