トップページデータ処理Python の Pandas データフレームPandas データフレームの基本情報の表示,散布図、要約統計量、ヒストグラム(Python, pandas, matplotlib, seaborn, Iris データセット, titanicデータセットを使用)

Pandas データフレームの基本情報の表示,散布図、要約統計量、ヒストグラム(Python, pandas, matplotlib, seaborn, Iris データセット, titanicデータセットを使用)

Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.

この資料の URL: https://www.kkaneko.jp/data/od/iris.html

目次

  1. Google Colab へのリンク
  2. 前準備
  3. Iris データセット, titanic データセットの準備
  4. 基本的な情報の表示
  5. 散布図
  6. 各属性の要約統計量(総数、平均、標準偏差、最小、四分位点、中央値、最大)
  7. ヒストグラム

【サイト内の関連ページ】

1. Google Colab へのリンク

このページの内容は,Google Colaboratory でも実行できる.

そのために,次の URL で,Google Colaboratory のノートブックを準備している.

次のリンクをクリックすると,Google Colaboratoryノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコードを実行することができる.Google Colaboratory のノートブックは書き換えて使うこともできる.このとき,書き換え後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1LfMuE3IVYKhXb57YGdsX_dmfnTvj5oKb?usp=sharing

2. 前準備

Python の準備

Python プログラムを動かすために, Windows では「python」, Ubuntu では「python3」などのコマンドを使う.

あるいは, 開発環境や Python コンソール(Jupyter Qt ConsoleSpyderPyCharmPyScripter など)の利用も便利である.

あるいは,オンラインで動くGoogle Colaboratory のノートブックの利用も,場合によっては便利である.

Google Colaboratory のノートブックを使うか, 自分のパソコンで Python を動かすなどがありえる.

(1) (Google Colaboratory を使う場合Google Colaboratory のノートブックの準備

Google Colaboratory のノートブックを新規作成を行う.

  1. Google Colaboratory のWebページを開く

    https://colab.research.google.com

    Google Colab はオンラインの Python 開発環境. 使用するには Google アカウントが必要

  2. ファイル」で、「ノートブックを新規作成」を選ぶ

    [image]
  3. Google アカウントでのログインが求められたときはログインする

    [image]

    [image]

(2) (自分のパソコンで Python を動かす場合)Python の準備

Python のインストール,pip と setuptools の更新,Python 開発環境

Python の URL: http://www.python.org/

【Python, pip の使い方】

Python, pip は,次のコマンドで起動できる.

Python 開発環境のインストール】

Python の numpy, pandas, seaborn, matplotlib, scikit-learn のインストール

Iris データセット, titanic データセットの準備

  1. iris, titanic データセットの読み込み
    import pandas as pd
    import seaborn as sns
    sns.set()
    iris = sns.load_dataset('iris')
    titanic = sns.load_dataset('titanic')
    

    [image]
  2. データの確認
    print(iris.head())
    print(titanic.head())
    

    [image]

基本的な情報の表示

print(iris.head())
print(iris.info())
print(iris.shape)
print(iris.ndim)
print(iris.columns)

print(titanic.head())
print(titanic.info())
print(titanic.shape)
print(titanic.ndim)
print(titanic.columns)

[image]

散布図

  1. 読み込んだ Iris データセットの表示
    print(iris) 
    

    [image]
  2. Iris データセットのうち、1列目と 2列目の表示

    オブジェクト iris には 0, 1, 2, 3, 4列目がある.

    print(iris.iloc[:,1]) 
    print(iris.iloc[:,2]) 
    

    [image]
  3. Iris データセットについて、1列目と 2列目の散布図

    plt.style.use('ggplot')」はグラフの書式の設定.「ro」は「赤い丸」という意味.

    %matplotlib inline
    import matplotlib.pyplot as plt
    import warnings
    warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
    plt.style.use('ggplot')
    plt.plot(iris.iloc[:,1], iris.iloc[:,2], 'ro')
    plt.show()
    

    [image]

各属性の要約統計量(総数、平均、標準偏差、最小、四分位点、中央値、最大)

import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print(iris.describe())
print(titanic.describe())

[image]

ヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
plt.style.use('ggplot')

plt.hist(iris.iloc[:,1])
plt.show()

plt.hist(iris.iloc[:,2])
plt.show()

[image]

2次元ヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
plt.style.use('ggplot')

plt.hist2d(iris.iloc[:,1], iris.iloc[:,2])
plt.show()

[image]