トップページデータ処理データの取り扱いPandas データフレームの集計集約(グループごとの数え上げ,最大,最小,平均,中央値,和)(Python, pandas, matplotlib, seaborn, irisデータセット, titanicデータセットを使用)

Pandas データフレームの集計集約(グループごとの数え上げ,最大,最小,平均,中央値,和)(Python, pandas, matplotlib, seaborn, irisデータセット, titanicデータセットを使用)

Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.

この資料の URL: https://www.kkaneko.jp/data/od/group.html

目次

  1. Google Colab へのリンク
  2. 前準備
  3. irisデータセット, titanic データセットの準備
  4. グループごとの数え上げ
  5. グループごとの最大、最小、平均、中央値、和

サイト内の関連ページ

1. Google Colab へのリンク

このページの内容は,Google Colab でも実行できる.

そのために,次の URL で,Google Colab のノートブックを準備している.

次のリンクをクリックすると,Google Colab のノートブックが開く. そして,Google アカウントでログインすると,Google Colab のノートブック内のコードを実行することができる.Google Colab のノートブックは書き換えて使うこともできる.このとき,書き換え後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1UxKjDODi08fFwuJu9MC9wiykD4zbmxHh?usp=sharing

前準備

Python のインストール,pip と setuptools の更新,Python 開発環境(JupyterLab, spyder, nteract)のインストール

インストール手順の説明

Python プログラムを動かすために, pythonpython3などのコマンドを使う. あるいは, 開発環境や Python コンソール(Jupyter Qt ConsolespyderPyCharmPyScripter など)の利用も便利である.

Python の numpy, pandas, seaborn, matplotlib のインストール

Windows の場合

python -m pip install -U numpy pandas seaborn matplotlib

Ubuntu の場合

sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib

irisデータセット, titanic データセットの準備

  1. iris, titanic データセットの読み込み
    import pandas as pd
    import seaborn as sns
    sns.set()
    iris = sns.load_dataset('iris')
    titanic = sns.load_dataset('titanic')
    

    [image]
  2. データの確認
    print(iris.head())
    print(titanic.head())
    

    [image]

グループごとの数え上げ

列を1つ選ぶことで、グループを作り、各グループの要素数を求める

pandas の groupby を使う場合

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )

[image]

グループごとの最大、最小、平均、中央値、和

列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める

pandas の groupby を使う場合

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )

print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )

print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )

print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )

print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )

[image]

[image]