dataframeのJAN列で、重複削除して、最初の行だけ残したい

Pandas DataFrameの特定の列で重複を削除し、重複する値の最初の行だけを残すには、drop_duplicatesメソッドを使用します。以下にその手順を示します。

例えば、次のようなDataFrameがあるとします:

python
import pandas as pd # サンプルデータの作成 data = { 'JAN': [12345, 12345, 67890, 12345, 67890, 11111], 'Product': ['A', 'B', 'C', 'D', 'E', 'F'], 'Price': [100, 150, 200, 120, 180, 300] } df = pd.DataFrame(data) print("Original DataFrame:") print(df)

このDataFrameのJAN列で重複を削除し、最初の行だけを残すには、以下のようにします:

python
# JAN列で重複を削除して、最初の行だけを残す df_unique = df.drop_duplicates(subset='JAN', keep='first') print("DataFrame after removing duplicates:") print(df_unique)

これにより、JAN列で重複する値の最初の行だけが残った新しいDataFrameが得られます。

以下にコード全体をまとめます:

python
import pandas as pd # サンプルデータの作成 data = { 'JAN': [12345, 12345, 67890, 12345, 67890, 11111], 'Product': ['A', 'B', 'C', 'D', 'E', 'F'], 'Price': [100, 150, 200, 120, 180, 300] } df = pd.DataFrame(data) print("Original DataFrame:") print(df) # JAN列で重複を削除して、最初の行だけを残す df_unique = df.drop_duplicates(subset='JAN', keep='first') print("DataFrame after removing duplicates:") print(df_unique)

このコードを実行すると、JAN列の重複を削除した新しいDataFrameが出力されます。

未分類

Posted by ぼっち