クロス集計表とは

クロス集計表(クロス表、クロスタブとも呼ばれる)は、2つ以上のカテゴリ変数(名義尺度または順序尺度)の関係を表形式で表示するための統計ツールです。クロス集計表を用いると、異なるカテゴリの組み合わせに対する頻度や割合を視覚的に理解しやすくなります。これは、マーケティング、社会科学、医学研究などの分野でよく使われます。

クロス集計表の構成

クロス集計表は、行と列にカテゴリ変数を配置し、各セルにそのカテゴリの組み合わせに対応する頻度(または割合)が表示されます。

例:クロス集計表の作成

例えば、ある調査で性別と好みの飲み物に関するデータがあるとします。次のようなデータが収集されたとします。

性別 飲み物
男性 コーヒー
女性 紅茶
男性 コーヒー
女性 ジュース
男性 紅茶
女性 コーヒー
男性 ジュース
女性 コーヒー
男性 コーヒー
女性 ジュース

このデータを基にクロス集計表を作成します。

クロス集計表の例

コーヒー 紅茶 ジュース 合計
男性 3 1 1 5
女性 2 0 3 5
合計 5 1 4 10

Pythonを使ったクロス集計表の作成

Pythonでは、pandasライブラリを使用してクロス集計表を簡単に作成できます。以下にその例を示します。

python
import pandas as pd # データを作成 data = { '性別': ['男性', '女性', '男性', '女性', '男性', '女性', '男性', '女性', '男性', '女性'], '飲み物': ['コーヒー', '紅茶', 'コーヒー', 'ジュース', '紅茶', 'コーヒー', 'ジュース', 'コーヒー', 'コーヒー', 'ジュース'] } # データフレームを作成 df = pd.DataFrame(data) # クロス集計表を作成 cross_tab = pd.crosstab(df['性別'], df['飲み物'], margins=True) print(cross_tab)

出力例

css
飲み物 コーヒー ジュース 紅茶 All 性別 女性 2 3 0 5 男性 3 1 1 5 All 5 4 1 10

クロス集計表の活用

クロス集計表は、カテゴリ変数間の関係を視覚的に示すために使われ、以下のような分析に役立ちます。

  1. 頻度の比較:カテゴリ間の頻度の違いを比較します。
  2. 関係性の分析:2つのカテゴリ変数間の関係性や独立性を分析します。例えば、カイ二乗検定を用いて独立性を検定することができます。
  3. データの要約:大量のデータを要約し、わかりやすい形式で表示します。

クロス集計表は、データ分析の基本的なツールであり、カテゴリデータの理解と解釈に非常に役立ちます。

未分類

Posted by ぼっち