Pandasのメソッド説明 pandas.get_dummies

Pandasのpandas.get_dummies関数は、カテゴリカルなデータ(カテゴリやラベルなど)をダミー変数に変換するための便利なツールです。ダミー変数は、元のカテゴリカルなデータをバイナリ形式にエンコードし、機械学習モデルで使用できるようにするために使用されます。各カテゴリ値に対して新しいバイナリ列が作成され、対応するカテゴリ値の場所に1が設定され、それ以外の場所に0が設定されます。

以下は、pandas.get_dummies関数の基本的な使い方と主要なパラメータの説明です。

基本的な使用法:

python
import pandas as pd

# サンプルデータフレームを作成
data = {'Category': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)

# カテゴリカルデータをダミー変数に変換
dummy_df = pd.get_dummies(df, columns=['Category'])

# ダミー変数化されたデータフレームを表示
print(dummy_df)

この例では、pandas.get_dummies関数を使用して、元のデータフレームdf内の’Category’列のカテゴリカルなデータをダミー変数に変換しました。新しいバイナリ列が作成され、各カテゴリ値に対応する列に1が設定され、それ以外の列に0が設定されています。

prefixパラメータ:

prefixパラメータを使用して、ダミー変数の列名の接頭辞を指定することができます。

python
# 列名に接頭辞を付けてダミー変数を作成
dummy_df = pd.get_dummies(df, columns=['Category'], prefix='Category')

# ダミー変数化されたデータフレームを表示
print(dummy_df)

prefix_sepパラメータ:

prefix_sepパラメータを使用して、ダミー変数の列名内の接頭辞とカテゴリ値の区切り文字を指定できます。

python
# 接頭辞とカテゴリ値の間にアンダースコアを追加
dummy_df = pd.get_dummies(df, columns=['Category'], prefix='Category', prefix_sep='_')

# ダミー変数化されたデータフレームを表示
print(dummy_df)

pandas.get_dummies関数は、カテゴリカルなデータを数値データに変換する必要がある場合に役立ちます。これは、機械学習アルゴリズムにカテゴリカルデータを適用する際や、データの前処理段階で一般的に使用されます。