Pythonのpandasメソッド pandas.get_dummies

2023年10月9日

pandasget_dummiesメソッドは、カテゴリカルなデータをダミー変数に変換するためのメソッドです。ダミー変数は、カテゴリカルなデータを数値データに変換するのに使用されます。カテゴリカルな特徴がある場合、機械学習モデルに適用する前に、これらの特徴をダミー変数に変換することが一般的です。

以下は、get_dummiesメソッドの基本的な使い方です:

python
import pandas as pd

# サンプルのデータフレームを作成する
data = {'都市': ['東京', '大阪', '札幌', '東京', '大阪'],
        '天気': ['晴れ', '曇り', '雨', '晴れ', '雨']}

df = pd.DataFrame(data)

# カテゴリカルな特徴をダミー変数に変換する
dummy_df = pd.get_dummies(df, columns=['都市', '天気'])

# 結果を表示する
print(dummy_df)

上記のコードでは、get_dummiesメソッドを使用して、データフレーム df 内のカテゴリカルな特徴 '都市’ と '天気’ をダミー変数に変換しています。結果として、各カテゴリカル特徴の各値に対する新しい列が作成され、該当する場合には1、該当しない場合には0が設定されます。

get_dummiesメソッドの主な特徴は以下です:

  • columns引数を使用して、ダミー変数に変換する特徴のリストを指定します。指定しない場合、データフレーム内のすべてのカテゴリカルな特徴が変換されます。
  • prefix引数を使用して、新しい列のプレフィックス(接頭辞)を指定できます。
  • prefix_sep引数を使用して、プレフィックスと実際の列名の間に挿入される区切り文字を指定できます。

get_dummiesメソッドは、カテゴリカルなデータを数値データに変換するのに役立ちます。これは、機械学習モデルに適用する前に、カテゴリカルな特徴を数値形式に変換する必要がある場合に特に重要です。