Pythonのpandasメソッド drop_duplicates

2023年10月9日

pandasdrop_duplicatesメソッドは、DataFrameやSeriesから重複した行を削除するためのメソッドです。このメソッドを使用することで、データ内の重複した行を特定し、それらを削除できます。

以下は、drop_duplicatesメソッドの基本的な使い方です:

python
import pandas as pd

# サンプルのDataFrameを作成する
data = {'名前': ['Alice', 'Bob', 'Alice', 'David', 'Eve'],
        '年齢': [25, 30, 25, 28, 22]}

df = pd.DataFrame(data)

# 重複した行を削除する
df = df.drop_duplicates()

# 結果を表示する
print(df)

上記のコードでは、drop_duplicatesメソッドを使用して、DataFrame df 内の重複した行を削除しています。結果として、重複した行が削除された新しいDataFrame df が生成されます。

drop_duplicatesメソッドの主な特徴は以下です:

  • デフォルトでは、最初に出現した行を残し、重複した行を削除します。最後に出現した行を残すこともできます。
  • subset引数を使用して、特定の列内での重複をチェックすることができます。
  • keep引数を使用して、削除する行の制御が可能です。

drop_duplicatesメソッドは、データのクリーニングや前処理の際に、不要な重複データを除去するのに役立ちます。データセット内のデータ品質を向上させるのに役立つことがあります。