dataframeのJAN列で、重複削除して、最初の行だけ残したい
Pandas DataFrameの特定の列で重複を削除し、重複する値の最初の行だけを残すには、drop_duplicatesメソッドを使用します。以下にその手順を示します。
例えば、次のようなDataFrameがあるとします:
python
import pandas as pd
# サンプルデータの作成
data = {
'JAN': [12345, 12345, 67890, 12345, 67890, 11111],
'Product': ['A', 'B', 'C', 'D', 'E', 'F'],
'Price': [100, 150, 200, 120, 180, 300]
}
df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
このDataFrameのJAN列で重複を削除し、最初の行だけを残すには、以下のようにします:
python
# JAN列で重複を削除して、最初の行だけを残す
df_unique = df.drop_duplicates(subset='JAN', keep='first')
print("DataFrame after removing duplicates:")
print(df_unique)
これにより、JAN列で重複する値の最初の行だけが残った新しいDataFrameが得られます。
以下にコード全体をまとめます:
python
import pandas as pd
# サンプルデータの作成
data = {
'JAN': [12345, 12345, 67890, 12345, 67890, 11111],
'Product': ['A', 'B', 'C', 'D', 'E', 'F'],
'Price': [100, 150, 200, 120, 180, 300]
}
df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
# JAN列で重複を削除して、最初の行だけを残す
df_unique = df.drop_duplicates(subset='JAN', keep='first')
print("DataFrame after removing duplicates:")
print(df_unique)
このコードを実行すると、JAN列の重複を削除した新しいDataFrameが出力されます。

ディスカッション
コメント一覧
まだ、コメントがありません