前回クロスワードに役立ちそうな「文字数別の英単語集」を作成した際に、「英単語の平均的な文字数」が気になったので調べてみました。
アメリカの計算機科学者ピーター・ノーヴィグ(Peter Norvig)氏が、Googleブックスにある約97,565の異なる単語を分析したところ、1単語に使われている平均的な文字数は4.79文字だったそうです。
下の表は「文字数別の英単語の割合」です。
文字数 | 割合 |
---|---|
1 | 3.00% |
2 | 17.65% |
3 | 20.51% |
4 | 14.79% |
5 | 10.70% |
6 | 8.39% |
7 | 7.94% |
8 | 5.94% |
9 | 4.44% |
10 | 3.08% |
11 | 1.76% |
12 | 0.96% |
13 | 0.52% |
14 | 0.22% |
15 | 0.08% |
16 | 0.02% |
出典:“English Letter Frequency Count” Peter Norvig
多い順に並べ替えると、3文字、2文字、4文字、5文字、6文字…という結果になりました。
文字数 | 割合 |
---|---|
3 | 20.51% |
2 | 17.65% |
4 | 14.79% |
5 | 10.70% |
6 | 8.39% |
7 | 7.94% |
8 | 5.94% |
9 | 4.44% |
10 | 3.08% |
1 | 3.00% |
11 | 1.76% |
12 | 0.96% |
13 | 0.52% |
14 | 0.22% |
15 | 0.08% |
16 | 0.02% |
出典:“English Letter Frequency Count” Peter Norvig
10文字以上の難しい単語は、ほとんど使われていないことが分かりますね。
この調査では、Googleブックスの膨大なコーパスを基にして、文字数以外にも「最も使われるアルファベット」や「最も使われる頭文字」なども分析していて、非常に興味深いデータになっています。
どのような単語が使われるのかは媒体によって異なります。例えば、ニュースサイトでは難しそうな単語が多く使われているイメージがありますが、分かりやすく伝えるために短い単語が好まれることも多いようです。ある調査によれば、「The New York Times」は平均4.9文字、「Wall Street Journal」は平均4.8文字、「BBC News」は平均4.7文字の単語が使われているという分析結果もありました。
参照:“What’s the best length of a word online?” Reach more readers
媒体が違うのにどれも同じような結果になるのが面白いですね。
ちなみに、当サイトでも「ABC順に覚える英単語」や「接尾辞から覚える英単語」などで英単語を紹介していますが、2020年8月現在、約7282単語を紹介しています。検証するには少ない単語数ですが、参考までに平均の文字数を調べてみました。
「ごがくねこ」で紹介している約7282単語(2020年8月現在)の文字数の割合
文字数 | 単語数 | 割合 |
---|---|---|
2 | 31 | 0.43% |
3 | 227 | 3.12% |
4 | 698 | 9.59% |
5 | 796 | 10.93% |
6 | 1089 | 14.95% |
7 | 1144 | 15.71% |
8 | 1067 | 14.65% |
9 | 858 | 11.78% |
10 | 651 | 8.94% |
11 | 433 | 5.95% |
12 | 211 | 2.90% |
13 | 127 | 1.74% |
14 | 50 | 0.69% |
15 | 12 | 0.16% |
なんと平均7.50文字でした。難しい単語を紹介し過ぎたのかもしれません。それとも「単語集」の平均値は高くなる傾向があるのでしょうか。詳細は不明ですが、もう少し短い単語も紹介するように心がけます。
なぜ英単語の平均文字数は約4.8文字なのか?
英語には文字数が長い単語が沢山ありますが、なぜ平均約4.8文字になるのでしょうか。
例えば、いくつか「15文字以上の英単語」をあげてみます。
- differentiation(区別)
- dissatisfaction(不満)
- misunderstanding(誤解)
- internationally(国際的に)
- psychologically(心理的に)
- counterclockwise(反時計回りに)
これらの単語を見る限り、それほど頻出度が高いというわけではありません。もしくは、もっと簡単な言い換えがあります。例えば、Google Ngram Viewerで調べてみると、「区別」を表す英単語は、dissatisfactionよりdistinctionのほうが使用頻度は高いです。「不満」ならunhappyやnot happyなどのほうがカジュアルでしょう。
平均文字数が4.8文字程度なのは、それより遥かに短い単語のほうがよく使われるからです。例えば、2文字の英単語には、an, at, be, by, do, go, me, my, we, it, is, in, to, of, onなどが、3文字の英単語には、and, all, but, day, the, wasなどがあります。会話に一度は出てきそうな超頻出単語ばかりです。
また、言語自体の特性もあるでしょう。日常的に使われる言葉は、話者が言いやすいように音韻や形態が日々微妙に変化し続けています。日本語における「ら抜き言葉」もその一例でしょう。そのような言語自体の特性というのも、一因として考えられるかもしれません。
まとめです。
このような膨大なデータベース(コーパス)を活用した英単語の研究には、以下のような調査もあります。
参考 英単語で最も使われるアルファベット
参考 英単語で最も使われる頭文字
参考 英単語で最も使われる最後の文字
参考 英語にはいくつの単語があるか
参考 最も使われる英単語TOP100
参考 最も使われる英語の名詞TOP25
参考 最も使われる英語の動詞TOP25
参考 最も使われる英語の形容詞TOP25