Pythonのpandasメソッド duplicated

2023年10月9日

pandasduplicatedメソッドは、DataFrameやSeries内の重複した行を検出するためのメソッドです。このメソッドを使用すると、データ内で重複した行を特定し、それらの行に対する真偽値のSeriesを生成できます。

以下は、duplicatedメソッドの基本的な使い方です:

python
import pandas as pd

# サンプルのDataFrameを作成する
data = {'名前': ['Alice', 'Bob', 'Alice', 'David', 'Eve'],
        '年齢': [25, 30, 25, 28, 22]}

df = pd.DataFrame(data)

# 重複した行を検出する
duplicates = df.duplicated()

# 結果を表示する
print(duplicates)

上記のコードでは、duplicatedメソッドを使用して、DataFrame df 内の重複した行を検出しています。結果として、重複した行に対する真偽値のSeries duplicates が生成され、各行が重複している場合にTrue、そうでない場合にFalseが示されます。

duplicatedメソッドの主な特徴は以下です:

  • デフォルトでは、最初に出現した行を除いて重複した行をTrueとします。重複した全ての行を検出するには、keep引数を変更します。
  • 列を指定して特定の列に対して重複を検出することもできます。
  • drop_duplicatesメソッドを使用して、重複した行をデータフレームから削除できます。

duplicatedメソッドは、データ内で重複した行を特定し、データの品質を確認するのに役立ちます。データの前処理や分析を行う際に、重複したデータを適切に処理するのに役立つことがあります。