关于词汇量的陷阱

2019-04-07

词汇量在文本中的出现是呈现正态分布的。好消息是你只用掌握少量单词，就可以认识文章中绝大部分的单词。坏消息是，这只是一个美好的陷阱。

我们经常会看到类似这样的统计数据，左边一列是掌握的词汇量，右边一列是普通文本中认识单词的比例：

1,000 72.0%
2,000 79.7%
3,000 84.0%
4,000 86.8%
5,000 88.7%
6,000 89.9%
15,000 97.9%

2000个单词，甚至1000个单词就可以认出七八成的单词了。好似，我只要会2000个单词，就能看懂八成的意思。但为什么一个掌握2000甚至4000单词的人，根本看不懂一篇原版英文文章呢？

看懂是一个是否问题

对一句话、一篇文章的理解，是一个“是否”问题，而不是比例问题。即要么懂，要么不懂。不存在懂80%的说法。所以，如果一个20个单词的句子，有2成的单词，即4个单词不认识，很可能这个句子整体就不理解了。

信息在单词上的分布是不均衡的，即很多常见单词是没有信息量的，比如the,a,do等，但它们出现的比例却很高。因此即便认识一个句子8成的单词，但很可能只获取了5成的信息量。5成信息量的情况下，大概率你是不明白的。

一篇文章能看懂，是在建立在近似所有语句都懂的情况下的结果。比如10句话有2句话不懂，你可能整体就不懂了。因此，有10个句子有两个句子不懂，那就全懵逼了。

换个角度看，即便是一篇中文文章，如果故意在里面添加奇怪的符号，使用拙劣的排版，你读起来也费劲。也就是说，即便这些不认识的单词没有信息量，也是一种干扰。至少是一种心理上的干扰。

在上面层层限制的情况下，词汇量量和看懂概率的关系就远远没有那么乐观。也许4000的词量，能看懂一篇原版英文文章的概率小于10%，而1万的词汇量，可能看懂的概率就能达到80%了，从这个角度看，再提升6000个单词，是十分划算的！

从应用的角度看，词汇量和看懂概率的关系更有价值，这个关系，有空我可以建立一个模型进行计算，相信对词汇量的认识更为科学。

-------------------------

本文采用知识共享署名 4.0 国际许可协议（CC-BY 4.0）进行许可。转载请注明来源：https://imshuai.com/vocabulary-traps 欢迎指正或在下方评论。

{Code, Thoughts, Sharing}