Pandasのメソッド説明 pandas.get_dummies
Pandasのpandas.get_dummies関数は、カテゴリカルなデータ(カテゴリやラベルなど)をダミー変数に変換するための便利なツールです。ダミー変数は、元のカテゴリカルなデータをバイナリ形式にエンコードし、機械学習モデルで使用できるようにするために使用されます。各カテゴリ値に対して新しいバイナリ列が作成され、対応するカテゴリ値の場所に1が設定され、それ以外の場所に0が設定されます。
以下は、pandas.get_dummies関数の基本的な使い方と主要なパラメータの説明です。
基本的な使用法:
python
import pandas as pd
# サンプルデータフレームを作成
data = {'Category': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)
# カテゴリカルデータをダミー変数に変換
dummy_df = pd.get_dummies(df, columns=['Category'])
# ダミー変数化されたデータフレームを表示
print(dummy_df)
この例では、pandas.get_dummies関数を使用して、元のデータフレームdf内の’Category’列のカテゴリカルなデータをダミー変数に変換しました。新しいバイナリ列が作成され、各カテゴリ値に対応する列に1が設定され、それ以外の列に0が設定されています。
prefixパラメータ:
prefixパラメータを使用して、ダミー変数の列名の接頭辞を指定することができます。
python # 列名に接頭辞を付けてダミー変数を作成 dummy_df = pd.get_dummies(df, columns=['Category'], prefix='Category') # ダミー変数化されたデータフレームを表示 print(dummy_df)
prefix_sepパラメータ:
prefix_sepパラメータを使用して、ダミー変数の列名内の接頭辞とカテゴリ値の区切り文字を指定できます。
python # 接頭辞とカテゴリ値の間にアンダースコアを追加 dummy_df = pd.get_dummies(df, columns=['Category'], prefix='Category', prefix_sep='_') # ダミー変数化されたデータフレームを表示 print(dummy_df)
pandas.get_dummies関数は、カテゴリカルなデータを数値データに変換する必要がある場合に役立ちます。これは、機械学習アルゴリズムにカテゴリカルデータを適用する際や、データの前処理段階で一般的に使用されます。

ディスカッション
コメント一覧
まだ、コメントがありません