Pandasのメソッド説明 describe
Pandasのdescribeメソッドは、データフレーム内の数値列に関する統計的な要約情報を提供するための便利なメソッドです。このメソッドを使用することで、データセット内の数値データの中心傾向や分布に関する情報を簡単に取得できます。以下は、DataFrame.describeメソッドの一般的な使い方と主要なパラメータの説明です。
基本的な使用法:
python
import pandas as pd
# サンプルデータフレームを作成
data = {'Age': [25, 30, 35, 40, 45],
'Salary': [50000, 60000, 75000, 80000, 90000]}
df = pd.DataFrame(data)
# 数値列の要約統計情報を取得
summary = df.describe()
# 要約統計情報を表示
print("Summary Statistics:")
print(summary)
この例では、describeメソッドを使用して、データフレームdf内の数値列(’Age’と’Salary’)に関する統計的な要約情報を取得し、その結果をsummary変数に格納しています。
パーセンタイルのカスタマイズ:
デフォルトでは、describeメソッドは25%、50%(中央値)、75%のパーセンタイルに対する要約情報を提供します。しかし、percentilesパラメータを使用してカスタムパーセンタイルを指定することもできます。
python
# 10%、20%、50%、80%、90%パーセンタイルに対する要約情報を取得
custom_percentiles = [0.1, 0.2, 0.5, 0.8, 0.9]
summary_custom_percentiles = df.describe(percentiles=custom_percentiles)
# カスタムパーセンタイルに対する要約統計情報を表示
print("Summary Statistics with Custom Percentiles:")
print(summary_custom_percentiles)
非数値列の統計情報を含める:
デフォルトでは、describeメソッドは数値列に対する統計情報のみを提供します。しかし、includeパラメータを使用して非数値列(オブジェクト型やカテゴリカル列)の情報も含めることができます。
python
# 数値列と非数値列の要約情報を取得
summary_all_columns = df.describe(include='all')
# 数値列と非数値列の要約統計情報を表示
print("Summary Statistics for All Columns:")
print(summary_all_columns)
DataFrame.describeメソッドは、データセットの要約統計情報を素早く取得し、データの中心傾向や分布を理解するのに役立ちます。データの概要を把握し、データ分析の初期段階でデータの品質を評価するのに役立つツールです。

ディスカッション
コメント一覧
まだ、コメントがありません