世界中には500くらいの水族館があり、そううち4割の125館が日本にあるという。
これをデータサイエンス的にどう説明するのか?
各国の特徴量でもって、水族館の数を説明することになろう。
はじめに特徴量の候補選びだ。
人口、面積、EEZ,(排他的経済水域)面積、海岸線の長さ、島の数、一人当たりGDP、動物園の数、博物館の数などが思い浮かぶ。
市町村レベルの自治体の数もいいかもしれない。これを精密化して海岸線をもつ市町村の数としよう。漁港の数も使える可能性がある。
似たような変数を省く。面積は不要だろう。海岸線の長さだけでいい、あるいは海岸に面した自治体数と海岸線の長さはどちら一つに絞りたい、みたいにする。
これらを分析対象のすべての国の平均値で正規化する。
クラスター分析と相関分析を行う。
そうすると浮かび上がるだろう。とくに日本の特徴量はなんだろうか?