トップページデータ処理データの取り扱いPandas データフレームの基本情報の表示,散布図、要約統計量、ヒストグラム(Python, pandas, matplotlib, seaborn, irisデータセット, titanicデータセットを使用)

Pandas データフレームの基本情報の表示,散布図、要約統計量、ヒストグラム(Python, pandas, matplotlib, seaborn, irisデータセット, titanicデータセットを使用)

Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.

この資料の URL: https://www.kkaneko.jp/data/od/iris.html

目次

  1. Google Colab へのリンク
  2. 前準備
  3. irisデータセット, titanic データセットの準備
  4. 基本的な情報の表示
  5. 散布図
  6. 各属性の要約統計量(総数、平均、標準偏差、最小、四分位点、中央値、最大)
  7. ヒストグラム

サイト内の関連ページ

1. Google Colab へのリンク

このページの内容は,Google Colab でも実行できる.

そのために,次の URL で,Google Colab のノートブックを準備している.

次のリンクをクリックすると,Google Colab のノートブックが開く. そして,Google アカウントでログインすると,Google Colab のノートブック内のコードを実行することができる.Google Colab のノートブックは書き換えて使うこともできる.このとき,書き換え後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1LfMuE3IVYKhXb57YGdsX_dmfnTvj5oKb?usp=sharing

前準備

Python のインストール,pip と setuptools の更新,Python 開発環境(JupyterLab, spyder, nteract)のインストール

インストール手順の説明

Python プログラムを動かすために, pythonpython3などのコマンドを使う. あるいは, 開発環境や Python コンソール(Jupyter Qt ConsolespyderPyCharmPyScripter など)の利用も便利である.

Python の numpy, pandas, seaborn, matplotlib のインストール

Windows の場合

python -m pip install -U numpy pandas seaborn matplotlib

Ubuntu の場合

sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib

irisデータセット, titanic データセットの準備

  1. iris, titanic データセットの読み込み
    import pandas as pd
    import seaborn as sns
    sns.set()
    iris = sns.load_dataset('iris')
    titanic = sns.load_dataset('titanic')
    

    [image]
  2. データの確認
    print(iris.head())
    print(titanic.head())
    

    [image]

基本的な情報の表示

print(iris.head())
print(iris.info())
print(iris.shape)
print(iris.ndim)
print(iris.columns)

print(titanic.head())
print(titanic.info())
print(titanic.shape)
print(titanic.ndim)
print(titanic.columns)

[image]

散布図

  1. 読み込んだ iris データセットの表示
    print(iris) 
    

    [image]
  2. iris データセットのうち、1列目と 2列目の表示

    オブジェクト iris には 0, 1, 2, 3, 4列目がある.

    print(iris.iloc[:,1]) 
    print(iris.iloc[:,2]) 
    

    [image]
  3. iris データセットについて、1列目と 2列目の散布図

    plt.style.use('ggplot')」はグラフの書式の設定.「ro」は「赤い丸」という意味.

    import matplotlib.pyplot as plt
    %matplotlib inline
    import warnings
    warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
    plt.style.use('ggplot')
    plt.plot(iris.iloc[:,1], iris.iloc[:,2], 'ro')
    plt.show()
    

    [image]

各属性の要約統計量(総数、平均、標準偏差、最小、四分位点、中央値、最大)

import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print(iris.describe())
print(titanic.describe())

[image]

ヒストグラム

import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
plt.style.use('ggplot')

plt.hist(iris.iloc[:,1])
plt.show()

plt.hist(iris.iloc[:,2])
plt.show()

[image]

2次元ヒストグラム

import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
plt.style.use('ggplot')

plt.hist2d(iris.iloc[:,1], iris.iloc[:,2])
plt.show()

[image]