Pythonのpandasメソッド describe

2023年10月9日

pandasdescribeメソッドは、DataFrameやSeries内の数値データの要約統計情報を提供するための便利なメソッドです。このメソッドを使用することで、データの中央値、平均値、最小値、最大値、標準偏差などの統計情報を簡単に取得できます。

以下は、describeメソッドの基本的な使い方です:

python
import pandas as pd

# サンプルのDataFrameを作成する
data = {'年齢': [25, 30, 35, 28, 22, 40, 32, 29, 38, 31]}
df = pd.DataFrame(data)

# 数値データの要約統計情報を取得する
summary = df['年齢'].describe()

# 結果を表示する
print(summary)

上記のコードでは、describeメソッドを使用して、DataFrame df の’年齢’列の数値データの要約統計情報を取得しています。結果として、中央値、平均値、最小値、最大値、標準偏差などの情報が表示されます。

describeメソッドの主な特徴は以下です:

  • デフォルトでは、数値データ列に対して要約統計情報を提供しますが、includeおよびexclude引数を使用して特定のデータ型の列を含めたり除外したりできます。
  • percentiles引数を指定して、パーセンタイル値をカスタマイズできます。
  • 要約情報は、データの中央値、平均値、標準偏差、四分位範囲(25%、50%、75%)、最小値、最大値、およびデータの合計数を含みます。

describeメソッドは、データセット内の数値データの特性を簡単に把握し、データの要約統計情報を取得するのに役立ちます。データの探索と分析において非常に有用です。