Pythonのpandasメソッド drop_duplicates
pandasのdrop_duplicatesメソッドは、DataFrameやSeriesから重複した行を削除するためのメソッドです。このメソッドを使用することで、データ内の重複した行を特定し、それらを削除できます。
以下は、drop_duplicatesメソッドの基本的な使い方です:
python
import pandas as pd
# サンプルのDataFrameを作成する
data = {'名前': ['Alice', 'Bob', 'Alice', 'David', 'Eve'],
'年齢': [25, 30, 25, 28, 22]}
df = pd.DataFrame(data)
# 重複した行を削除する
df = df.drop_duplicates()
# 結果を表示する
print(df)
上記のコードでは、drop_duplicatesメソッドを使用して、DataFrame df 内の重複した行を削除しています。結果として、重複した行が削除された新しいDataFrame df が生成されます。
drop_duplicatesメソッドの主な特徴は以下です:
- デフォルトでは、最初に出現した行を残し、重複した行を削除します。最後に出現した行を残すこともできます。
subset引数を使用して、特定の列内での重複をチェックすることができます。keep引数を使用して、削除する行の制御が可能です。
drop_duplicatesメソッドは、データのクリーニングや前処理の際に、不要な重複データを除去するのに役立ちます。データセット内のデータ品質を向上させるのに役立つことがあります。

ディスカッション
コメント一覧
まだ、コメントがありません