Pythonのpandasメソッド duplicated
pandasのduplicatedメソッドは、DataFrameやSeries内の重複した行を検出するためのメソッドです。このメソッドを使用すると、データ内で重複した行を特定し、それらの行に対する真偽値のSeriesを生成できます。
以下は、duplicatedメソッドの基本的な使い方です:
python
import pandas as pd
# サンプルのDataFrameを作成する
data = {'名前': ['Alice', 'Bob', 'Alice', 'David', 'Eve'],
'年齢': [25, 30, 25, 28, 22]}
df = pd.DataFrame(data)
# 重複した行を検出する
duplicates = df.duplicated()
# 結果を表示する
print(duplicates)
上記のコードでは、duplicatedメソッドを使用して、DataFrame df 内の重複した行を検出しています。結果として、重複した行に対する真偽値のSeries duplicates が生成され、各行が重複している場合にTrue、そうでない場合にFalseが示されます。
duplicatedメソッドの主な特徴は以下です:
- デフォルトでは、最初に出現した行を除いて重複した行をTrueとします。重複した全ての行を検出するには、
keep引数を変更します。 - 列を指定して特定の列に対して重複を検出することもできます。
drop_duplicatesメソッドを使用して、重複した行をデータフレームから削除できます。
duplicatedメソッドは、データ内で重複した行を特定し、データの品質を確認するのに役立ちます。データの前処理や分析を行う際に、重複したデータを適切に処理するのに役立つことがあります。

ディスカッション
コメント一覧
まだ、コメントがありません