dataframeのJAN列で、重複削除して、最初の行だけ残したい

2024年6月25日

Pandas DataFrameの特定の列で重複を削除し、重複する値の最初の行だけを残すには、drop_duplicatesメソッドを使用します。以下にその手順を示します。

例えば、次のようなDataFrameがあるとします：

python
import pandas as pd

# サンプルデータの作成
data = {
    'JAN': [12345, 12345, 67890, 12345, 67890, 11111],
    'Product': ['A', 'B', 'C', 'D', 'E', 'F'],
    'Price': [100, 150, 200, 120, 180, 300]
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

このDataFrameのJAN列で重複を削除し、最初の行だけを残すには、以下のようにします：

python
# JAN列で重複を削除して、最初の行だけを残す
df_unique = df.drop_duplicates(subset='JAN', keep='first')

print("DataFrame after removing duplicates:")
print(df_unique)

これにより、JAN列で重複する値の最初の行だけが残った新しいDataFrameが得られます。

以下にコード全体をまとめます：

python
import pandas as pd

# サンプルデータの作成
data = {
    'JAN': [12345, 12345, 67890, 12345, 67890, 11111],
    'Product': ['A', 'B', 'C', 'D', 'E', 'F'],
    'Price': [100, 150, 200, 120, 180, 300]
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

# JAN列で重複を削除して、最初の行だけを残す
df_unique = df.drop_duplicates(subset='JAN', keep='first')

print("DataFrame after removing duplicates:")
print(df_unique)

このコードを実行すると、JAN列の重複を削除した新しいDataFrameが出力されます。

未分類

Posted by ぼっち

break_even_pointのデータベースのカラムに追加したい

記事数が5000以上あるんだけど、カテゴリーの振り分けが大変なんだ、どうしよう

コメント一覧

まだ、コメントがありません