ぼっち | ページ 55 | ALL Python(オールパイソン)

ブースティングより高精度なものは？

2024年6月8日未分類

ブースティングアルゴリズム自体が高い精度を提供することがありますが、それ以上の精度を求める場合には、いくつかのアプローチがあります。具体的な方法は以下の通りです：

アンサンブル学習: 複数の異なるモデルを組み合わせることで ...

記事を読むブースティングよ ...

精度重視ならブースティング？

2024年6月8日未分類

一般的に、精度を重視する場合、ブースティングアルゴリズムが有力な選択肢です。ブースティングは、弱い学習器を組み合わせて強力なモデルを構築するアンサンブル学習手法の一種であり、誤分類されたサンプルに重点を置くことで性能を向上させます。

記事を読む精度重視ならブースティング？

実際にやってみないと分からなくない？ランダムフォレストがいいのか、Lightgbtがいいのか

2024年6月8日未分類

2024年6月17日

確かに、実際に機械学習アルゴリズムを試してみることで、そのアルゴリズムの性能や適合度を確認することができます。ランダムフォレストやLightGBMなどの機械学習アルゴリズムは、データの性質や特徴に応じて異なる結果をもたらすことがありま ...

記事を読む実際にやってみな ...

説明変数と目的変数だけ用意して、ひとまず全てのアルゴリズムを試すことって出来るのかな？

2024年6月8日未分類

はい、説明変数（特徴量）と目的変数が用意されていれば、一般的にはほとんどの機械学習アルゴリズムを試すことができます。ただし、どのアルゴリズムが最も適しているかを見つけるためには、適切な評価指標やモデルのハイパーパラメータを調整する必要 ...

記事を読む説明変数と目的変 ...

距離ベースのモデルってクラスタリングってこと？

2024年6月8日未分類

距離ベースのモデルには、クラスタリングだけでなく、教師あり学習のモデルも含まれます。クラスタリングは、データを似ているもの同士でグループ分けするタスクであり、K近傍法（K-nearest neighbors, KNN）などがその一例で ...

記事を読む距離ベースのモデ ...

どんな場合に標準化必要なの？具体的なアルゴリズムおしえて

2024年6月8日未分類

2024年6月17日

特徴量のスケーリングが必要な場合は、主に以下のような状況です：

線形モデル（線形回帰、ロジスティック回帰など）: 特徴量のスケールが異なる場合、重みの学習がうまくいかないことがあります。この場合、特徴量のスケーリングが必要です。 ...

記事を読むどんな場合に標準 ...

ランダムフォレストやブースティング系は勝手に標準化してくれないの？

2024年6月8日未分類

ランダムフォレストやブースティングなどの決定木ベースのモデルは、特徴量のスケーリングに対して敏感ではないため、通常は勝手に標準化や正規化を行いません。これらのアルゴリズムは、各特徴量のスケールの違いに対してロバストであり、特徴量のスケ ...

記事を読むランダムフォレス ...

数値のカラムはエンコーディングする必要は無い？

2024年6月8日未分類

数値のカラムは通常、エンコーディングする必要はありません。数値データは既に数値として表現されており、機械学習モデルが直接理解できます。そのため、通常は数値のカラムをそのまま使用します。ただし、場合によっては、数値のスケールを調整する必 ...

記事を読む数値のカラムはエ ...

そのメソッドを使って数値を変換したらどうなる？

2024年6月8日未分類

カテゴリ変数を数値に変換することで、機械学習モデルが理解しやすくなります。一般的な変換手法には、以下のようなものがあります：

One-Hotエンコーディング: カテゴリ変数を複数のバイナリ特徴量に変換します。各カテゴリに対応する ...

記事を読むそのメソッドを使 ...

それは、ﾊﾟﾝﾀﾞｽでできるよね

2024年6月8日未分類

はい、正しいです。パンダス（Pandas）ライブラリを使用して、カテゴリ変数を数値に変換することができます。一般的には、pd.get_dummies()関数を使ってOne-Hotエンコーディングを行ったり、pd.factorize() ...

記事を読むそれは、ﾊﾟﾝﾀﾞｽでできるよね

カテゴリ変数から、数値に変える作業をなんて言うの？

2024年6月8日未分類

カテゴリ変数を数値に変換する作業は、「カテゴリカルエンコーディング」と呼ばれます。

記事を読むカテゴリ変数から ...

スケーリングの観点からみてどう？

2024年6月8日未分類

提供されたコードでは、スケーリング処理が行われていません。一般的に、SVMのようなモデルでは、特徴量のスケーリングが重要とされています。特に、カーネル法を使用する場合や特徴量のスケールが異なる場合は、スケーリングが必要です。

記事を読むスケーリングの観点からみてどう？

import pandas as pd from sklearn.svm import SVC from sklearn.metrics import accuracy_score, classification_report, roc_auc_score from imblearn.combine import SMOTETomek from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score from sklearn.model_selection import StratifiedKFold, cross_validate from sklearn.impute import SimpleImputer import numpy as np # データ読み込み data = pd.read_csv(“/home/share/temp/20230301-20240331_site_zaiko_suii.csv”, encoding=”cp932″) # 特徴量と目的変数の選択 X = data.drop([“SKU”,”原価”, “商品名”, “ブランド名”, “メーカー名”], axis=1) y = X.iloc[:, -1].apply(lambda x: 0 if x < 0 else 1) X = X.iloc[:, :-1] # 欠損値を補完するImputerを定義 imputer = SimpleImputer(strategy=’mean’) # 欠損値を補完 X = imputer.fit_transform(X) # オーバーサンプリングとアンダーサンプリングを組み合わせる smt = SMOTETomek(random_state=42) X_resampled, y_resampled = smt.fit_resample(X, y) # SVCモデルの定義 svc_classifier = SVC(probability=True) # AUCを計算するためにprobabilityをTrueに設定 # モデルのトレーニング svc_classifier.fit(X_resampled, y_resampled) # モデルの性能評価 y_pred = svc_classifier.predict(X_resampled) accuracy = accuracy_score(y_resampled, y_pred) print(“Accuracy:”, accuracy) print(“nClassification Report:”) print(classification_report(y_resampled, y_pred)) # AUCスコアを計算 y_pred_proba = svc_classifier.predict_proba(X_resampled)[:, 1] auc_score = roc_auc_score(y_resampled, y_pred_proba) print(“AUC Score:”, auc_score) # 評価指標の定義（Precision, Recall, F1-score） scoring = {‘precision’: make_scorer(precision_score), ‘recall’: make_scorer(recall_score), ‘f1_score’: make_scorer(f1_score)} # 層化k分割交差検証を実行 cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42) cv_results = cross_validate(svc_classifier, X_resampled, y_resampled, cv=cv, scoring=scoring) # 結果の表示 print(“Precision:”, cv_results[‘test_precision’]) print(“Recall:”, cv_results[‘test_recall’]) print(“F1-score:”, cv_results[‘test_f1_score’]) # 交差検証の結果からPrecision、Recall、F1-scoreの標準偏差を計算 precision_std = np.std(cv_results[‘test_precision’]) recall_std = np.std(cv_results[‘test_recall’]) f1_score_std = np.std(cv_results[‘test_f1_score’]) # 結果の表示 print(“Precision Standard Deviation:”, precision_std) print(“Recall Standard Deviation:”, recall_std) print(“F1-score Standard Deviation:”, f1_score_std) これじゃだめ？

2024年6月8日未分類

提供されたコードは問題なく、SVMモデルを使用して精度や評価指標を計算し、交差検証を行っています。ただし、モデルのパフォーマンスを評価する際に、トレーニングデータ全体に対する精度や評価指標を示しています。

SVMの場合、特 ...

記事を読む import pandas as ...

スケーリングだめだった？

2024年6月8日未分類

SVMは、特徴量の尺度に敏感なモデルです。特にカーネル法を使用する場合や特徴量のスケールが異なる場合に影響を受けやすくなります。そのため、特徴量のスケーリングはSVMにとって重要な前処理手法の1つです。

スケーリングが行わ ...

記事を読むスケーリングだめだった？

RFよりSVMのほうが精度良くなかったじゃん。なんでだと思う？

2024年6月8日未分類

SVM（サポートベクターマシン）とランダムフォレスト（RF）の性能が異なる理由はいくつか考えられます。以下にいくつかの可能性を挙げてみます：

データの適合性：SVMとランダムフォレストは、データに対して異なる仮定を持つモデ ...

記事を読む RFよりSVMのほう ...

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from imblearn.combine import SMOTETomek from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score from sklearn.model_selection import StratifiedKFold, cross_validate from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score, roc_curve # データ読み込み data = pd.read_csv(“/home/share/temp/20230301-20240331_site_zaiko_suii.csv”,encoding=”cp932″) # 特徴量と目的変数の選択 X = data.drop([“SKU”,”原価”, “商品名”, “ブランド名”, “メーカー名”], axis=1) y = X.iloc[:, -1].apply(lambda x: 0 if x < 0 else 1) X = X.iloc[:, :-1] # 欠損値を補完するImputerを定義 imputer = SimpleImputer(strategy=’mean’) # 欠損値を補完 X = imputer.fit_transform(X) # オーバーサンプリングとアンダーサンプリングを組み合わせる smt = SMOTETomek(random_state=42) X, y = smt.fit_resample(X, y) # データをトレーニングセットとテストセットに分割（70%をトレーニング、30%をテスト） X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # ランダムフォレストモデルの定義とトレーニング（トレーニングデータを使用） rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42) rf_classifier.fit(X_train, y_train) # テストデータで予測 y_pred_test = rf_classifier.predict(X_test) # テストデータの性能評価 accuracy_test = accuracy_score(y_test, y_pred_test) print(“Test Accuracy:”, accuracy_test) print(“nTest Classification Report:”) print(classification_report(y_test, y_pred_test)) # AUCを計算 # テストデータでの予測確率を取得 y_pred_proba_test = rf_classifier.predict_proba(X_test)[:, 1] auc_score = roc_auc_score(y_test, y_pred_proba_test) print(“AUC Score:”, auc_score) # 評価指標の定義（Precision, Recall, F1-score） scoring = {‘precision’: make_scorer(precision_score), ‘recall’: make_scorer(recall_score), ‘f1_score’: make_scorer(f1_score)} # 層化k分割交差検証を実行 cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) cv_results = cross_validate(rf_classifier, X, y, cv=cv, scoring=scoring) # 結果の表示 print(“Precision:”, cv_results[‘test_precision’]) print(“Recall:”, cv_results[‘test_recall’]) print(“F1-score:”, cv_results[‘test_f1_score’]) import numpy as np # 交差検証の結果からPrecision、Recall、F1-scoreの標準偏差を計算 precision_std = np.std(cv_results[‘test_precision’]) recall_std = np.std(cv_results[‘test_recall’]) f1_score_std = np.std(cv_results[‘test_f1_score’]) # 結果の表示 print(“Precision Standard Deviation:”, precision_std) print(“Recall Standard Deviation:”, recall_std) print(“F1-score Standard Deviation:”, f1_score_std) これでLightGBMもくれ

2024年6月8日未分類

LightGBMを使ったコードを以下に示します。LightGBMは高速でありながら精度の高い勾配ブースティングフレームワークであり、大規模なデータセットにも適しています。

python
import pandas as ...

記事を読む import pandas as ...

import pandas as pd from sklearn.svm import SVC from sklearn.metrics import accuracy_score, classification_report from imblearn.combine import SMOTETomek from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score from sklearn.model_selection import StratifiedKFold, cross_validate from sklearn.impute import SimpleImputer import numpy as np # データ読み込み data = pd.read_csv(“/home/share/temp/20230301-20240331_site_zaiko_suii.csv”, encoding=”cp932″) # 特徴量と目的変数の選択 X = data.drop([“SKU”,”原価”, “商品名”, “ブランド名”, “メーカー名”], axis=1) y = X.iloc[:, -1].apply(lambda x: 0 if x < 0 else 1) X = X.iloc[:, :-1] # 欠損値を補完するImputerを定義 imputer = SimpleImputer(strategy=’mean’) # 欠損値を補完 X = imputer.fit_transform(X) # オーバーサンプリングとアンダーサンプリングを組み合わせる smt = SMOTETomek(random_state=42) X_resampled, y_resampled = smt.fit_resample(X, y) # SVCモデルの定義 svc_classifier = SVC() # モデルのトレーニング svc_classifier.fit(X_resampled, y_resampled) # モデルの性能評価 y_pred = svc_classifier.predict(X_resampled) accuracy = accuracy_score(y_resampled, y_pred) print(“Accuracy:”, accuracy) print(“nClassification Report:”) print(classification_report(y_resampled, y_pred)) # 評価指標の定義（Precision, Recall, F1-score） scoring = {‘precision’: make_scorer(precision_score), ‘recall’: make_scorer(recall_score), ‘f1_score’: make_scorer(f1_score)} # 層化k分割交差検証を実行 cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) cv_results = cross_validate(svc_classifier, X_resampled, y_resampled, cv=cv, scoring=scoring) # 結果の表示 print(“Precision:”, cv_results[‘test_precision’]) print(“Recall:”, cv_results[‘test_recall’]) print(“F1-score:”, cv_results[‘test_f1_score’]) # 交差検証の結果からPrecision、Recall、F1-scoreの標準偏差を計算 precision_std = np.std(cv_results[‘test_precision’]) recall_std = np.std(cv_results[‘test_recall’]) f1_score_std = np.std(cv_results[‘test_f1_score’]) # 結果の表示 print(“Precision Standard Deviation:”, precision_std) print(“Recall Standard Deviation:”, recall_std) print(“F1-score Standard Deviation:”, f1_score_std) AUC追加して

2024年6月8日未分類

以下のコードは、SVM（サポートベクターマシン）を使用して二値分類を行い、交差検証による評価指標と標準偏差を計算し、AUCスコアを追加しています。

python
import pandas as pdfrom sklea ...

記事を読む import pandas as ...

現状のRFで良い結果が出ていれば、ほかのブースティング系にする必要はない？

2024年6月8日未分類

はい、その通りです。現在のランダムフォレストモデルが良好な結果を出している場合、他のブースティングアルゴリズムに切り替える必要はありません。ランダムフォレストは強力なモデルであり、データセットに適している場合は優れた性能を発揮します。 ...

記事を読む現状のRFで良い結 ...

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from imblearn.combine import SMOTETomek from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score from sklearn.model_selection import StratifiedKFold, cross_validate from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score, roc_curve # データ読み込み data = pd.read_csv(“/home/share/temp/20230301-20240331_site_zaiko_suii.csv”,encoding=”cp932″) # 特徴量と目的変数の選択 X = data.drop([“SKU”,”原価”, “商品名”, “ブランド名”, “メーカー名”], axis=1) y = X.iloc[:, -1].apply(lambda x: 0 if x < 0 else 1) X = X.iloc[:, :-1] # 欠損値を補完するImputerを定義 imputer = SimpleImputer(strategy=’mean’) # 欠損値を補完 X = imputer.fit_transform(X) # オーバーサンプリングとアンダーサンプリングを組み合わせる smt = SMOTETomek(random_state=42) X, y = smt.fit_resample(X, y) # # オーバーサンプリング手法を選択 # smt = SMOTE(random_state=42) # X, y = smt.fit_resample(X, y) # データをトレーニングセットとテストセットに分割（70%をトレーニング、30%をテスト） X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # ランダムフォレストモデルの定義とトレーニング（トレーニングデータを使用） rf_classifier = RandomForestClassifier(n_estimators=30, random_state=42) rf_classifier.fit(X_train, y_train) # テストデータで予測 y_pred_test = rf_classifier.predict(X_test) # テストデータの性能評価 accuracy_test = accuracy_score(y_test, y_pred_test) print(“Test Accuracy:”, accuracy_test) print(“nTest Classification Report:”) print(classification_report(y_test, y_pred_test)) # AUCを計算 # テストデータでの予測確率を取得 y_pred_proba_test = rf_classifier.predict_proba(X_test)[:, 1] auc_score = roc_auc_score(y_test, y_pred_proba_test) print(“AUC Score:”, auc_score) # 評価指標の定義（Precision, Recall, F1-score） scoring = {‘precision’: make_scorer(precision_score), ‘recall’: make_scorer(recall_score), ‘f1_score’: make_scorer(f1_score)} # 層化k分割交差検証を実行 cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) cv_results = cross_validate(rf_classifier, X, y, cv=cv, scoring=scoring) # 結果の表示 print(“Precision:”, cv_results[‘test_precision’]) print(“Recall:”, cv_results[‘test_recall’]) print(“F1-score:”, cv_results[‘test_f1_score’]) import numpy as np # 交差検証の結果からPrecision、Recall、F1-scoreの標準偏差を計算 precision_std = np.std(cv_results[‘test_precision’]) recall_std = np.std(cv_results[‘test_recall’]) f1_score_std = np.std(cv_results[‘test_f1_score’]) # 結果の表示 print(“Precision Standard Deviation:”, precision_std) print(“Recall Standard Deviation:”, recall_std) print(“F1-score Standard Deviation:”, f1_score_std) ちなみに、上記は二値分類だよね？

2024年6月8日未分類

はい、上記のコードは二値分類問題を扱っています。データの読み込みからランダムフォレストモデルのトレーニング、テストデータでの性能評価、さらには交差検証を含め、すべてのステップで二値分類が行われています。

記事を読む import pandas as ...

あとAUCも追加

2024年6月8日未分類

AUC（Area Under the ROC Curve）は、モデルの性能を評価する際に一般的に使用されるメトリックの1つです。以下は、AUCを追加してモデルの性能を評価する方法です。

python
from sklea ...

記事を読むあとAUCも追加

7：3に分けてテストする機能追加して

2024年6月8日未分類

2024年6月17日

7：3に分割してテストするには、データをトレーニングセットとテストセットに分割する必要があります。以下はその方法です。

pythonfrom sklearn.model_selection import train_test_s ...

記事を読む 7：3に分けてテス ...

LightGBM

2024年6月8日未分類

2024年6月17日

LightGBMは、勾配ブースティング木をベースとした高速な勾配ブースティングフレームワークです。LightGBMは、データの並列処理や効率的なメモリ使用などの最適化を行うことで、非常に高速な学習と予測を提供します。

Li ...

記事を読む LightGBM