Notionとは多機能メモアプリです。
僕はブラウザのホームをNotionで作成した他、ブログの各種データの管理に使用しています。
ブログのデータは閲覧数やグーグルアドセンスの収益など数値を「Table」機能を使って記録、集計しています。
このTableには自動計算機能が備わっています。合計、算術平均、中央値などデータを扱うために必要な最低限の機能が揃っているわけですが、あなたは算術平均と中央値の違いと使い分けを理解していますか?
今回はNotionに登場する統計学について解説していきます。
算術平均と中央値
月のデータの個数が違うとき
僕はブログのデータを月ごとに集計しています。ここでは例として訪問者数を扱うことにします。
例えば、1月と2月ではどちらが訪問者数が多かったのか比べるとします。
単純に合計値でもいいでしょう。
しかし1月は31日間、2月は28または29日間。日数が違えば、毎日だいたい同じ人数が訪問していた場合、日数の多い1月の方が合計値が多くなるでしょう。
果たして1月と2月のどちらの方が1日あたりの訪問者数が多いのでしょうか。
このとき扱うのが算術平均(Average)です。
実際に31日間と28日間のデータを並べて説明するのは難しいので、仮に5日間あるn月と7日間あるm月で比べてみようと思います。
5日間あるn月の訪問者数は1日から順に
98 121 110 100 83
7日間あるm月の訪問者数は1日から順に
86 130 101 77 103 92 95
それぞれの合計は
n月 512
m月 684
このように合計ではm月の方が多く読まれています。
しかし本当に多く読まれているのか、1日あたりの訪問者数が多いのはどちらなのか月の日数が違うためこのままでは比べることができません。
そこで合計値を日数で割ります。
n月 512÷5=102.4
m月 684÷7=97.7
こうすることでn月とm月を比べることが可能になり、n月の方が1日により多く読まれていた事が分かります。
値の合計÷値の個数
これを算術平均と呼びます。
Notionで「Average」を選択すると自動で計算されます。
大きく違う値があるとき
ブログを運営しているとバズって急激にたくさん読まれる日があったり、逆に絶望的に読まれない日もたまにはあったりしますよね。
例えば
n月 98 121 110 100 83
に対して
p月 20 121 110 100 83
という1日だけ絶望的に読まれなかった日があった月とします。
上下を見比べると違うのは1日の98と20だけで、あとは同じ訪問者数です。
しかしながら先程のように算術平均をとると、n月は102.4に対してp月は86.8と大きく値が変わってしまいます。
このように大きく外れた値が含まれていると算術平均に大きな影響を与えます。
これではその1日を除いて他の日は同じくらい読まれていたということが分かりません。
そんなときに登場するのが中央値です。
中央値(Median)とは、値を順に並べて端から個数を数えていき中央にある値のことです。
実際にn月とp月の中央値をとってみましょう。
n月とp月を小さい値から順に並べます。
n月 83 98 100 110 121
p月 20 83 100 110 121
値は5つなので中央値は3番目の100になります。
値の個数が偶数個の場合は中央の2つを足して2で割ったものが中央値になります。
このように中央値の場合、大きく外れた値があっても影響を受けにくいです。端がどんな値であっても中央値には影響がないからです。
よって大きく落ち込んだ日はあったけれどおおよそは違いがないことが中央値によって分かりました。
しかしながら中央値は万能ではありません。
p月 20 83 100 110 121
に対して
q月 70 83 100 110 121
という落ち込みがなかった月があったとします。
このとき真っ先に中央値を見てしまうと同じ100だと変わらないと判断してしまいますが、算術平均を取ると、
p月 86.8
q月 96.8
と違いがあったことが分かります。
中央値はひとつの値でしかないので比較には不向きです。
なので基本は算術平均を用いるようにしましょう。
算術平均と中央値の使い分け
ここまでくると算術平均と中央値のどちらを見たらいいのかわからなくなっているかもしれません。
見分け方は簡単です。
算術平均 中央値
n月 102.4 100
p月 86.8 100
q月 96.8 100
このように並べると、算術平均と中央値が同じくらいの月と大きく違う月があることがわかりますね。
算術平均と中央値が大きく違うp月は大きく外れた値がある月でしたね。このように大きく外れた値がある月は算術平均と中央値が離れます。
なので算術平均と中央値の2つに差があるときは中央値に注目してみてください。
この3ヶ月のデータを分析すると、n月とq月ではq月の方が訪問者数が少なく、p月は大きく落ち込んだ日があったが他の日はおおむね他の月と同じ訪問者数だったということが分かります。
最大値と最小値と範囲
NotionのTableにはまだ計算機能があります。
最小値(Min)、最大値(Max)、範囲(Range)です。
範囲は最大値ー最小値で計算される値で、値の幅とも表現されます。
値にばらつきはあったか
範囲は最大値から最小値までの幅を表します。
上記の値で実際に計算してみると、
n月 121ー83=38
m月 130ー77=53
となります。
m月は多く読まれた日と少なかった日の差が大きく、n月は日々同じくらいずつ安定して読まれていたことが分かります。
しかしこれはあくまで暫定的なもので、どれだけ訪問者数にばらつきがあったかは正確には「分散」や「標準偏差」などちらばりの尺度を使用します。
この計算機能は残念ながらNotionにはありません。
あくまで目安としてNotionの範囲(Range)を使用してみるとよいでしょう。
数字を読み解くこと
計算は優秀なNotionがやってくれますが、使用者の僕たちが優秀でなければ計算結果は意味を成しません。
以上のように計算式の意味を知って、よりNotionを活用してくださいね。