ぼっち | ページ 49 | ALL Python(オールパイソン)

xgboostでクラスの重みづけはどうやるの？

2024年6月8日未分類

XGBoostでは、クラスの不均衡を考慮するために、scale_pos_weightパラメーターを使用してクラスの重みづけを行います。このパラメーターは、正例（1）と負例（0）のサンプルの比率に基づいて計算された重みを指定します。

記事を読む xgboostでクラス ...

ランダムフォレストのaverage=”weighted”で行った場合、上手く重みづけがされていないようだけど、どうしたらいいと思う？

2024年6月8日未分類

ランダムフォレストのaverage="weighted"を使用した場合、クラスの不均衡を考慮せずに単純な重み付き平均を計算している可能性があります。不均衡なデータセットでは、これは適切な方法ではありません。

不均衡なデータ ...

記事を読むランダムフォレス ...

Weighted Accuracy: 0.5616605616605617 Weighted Precision: 0.5318493541919603 Weighted Recall: 0.5616605616605617 Weighted F1 Score: 0.5216993753351751 Weighted ROC AUC Score: 0.7692266112375148 不均衡が未だ発生している。AUCが高い

2024年6月8日未分類

AUCが高いが、他の指標（Accuracy、Precision、Recall、F1 Score）が低いということは、モデルが陽性クラスに対する予測性能が高い一方で、陰性クラスに対する予測性能が低い可能性があります。これは、データのクラ ...

記事を読む Weighted Accurac ...

from sklearn.utils.class_weight import compute_class_weight # クラスの重みを計算 class_weights = compute_class_weight(‘balanced’, np.unique(y_train), y_train) # クラスの重みを辞書に変換 class_weight_dict = dict(zip(np.unique(y_train), class_weights)) # ランダムフォレストモデルの作成とトレーニング rf_model_weighted = RandomForestClassifier(n_estimators=100, random_state=100, class_weight=class_weight_dict) rf_model_weighted.fit(X_train_scaled, y_train) # テストセットでの予測 y_pred_weighted = rf_model_weighted.predict(X_test_scaled) # モデルの評価 accuracy_weighted = accuracy_score(y_test, y_pred_weighted) precision_weighted = precision_score(y_test, y_pred_weighted, average=’weighted’) recall_weighted = recall_score(y_test, y_pred_weighted, average=’weighted’) f1_weighted = f1_score(y_test, y_pred_weighted, average=’weighted’) roc_auc_weighted = roc_auc_score(y_test, rf_model_weighted.predict_proba(X_test_scaled), multi_class=’ovr’) print(“Weighted Accuracy:”, accuracy_weighted) print(“Weighted Precision:”, precision_weighted) print(“Weighted Recall:”, recall_weighted) print(“Weighted F1 Score:”, f1_weighted) print(“Weighted ROC AUC Score:”, roc_auc_weighted) TypeError Traceback (most recent call last) Cell In[26], line 4 1 from sklearn.utils.class_weight import compute_class_weight 3 # クラスの重みを計算 —-> 4 class_weights = compute_class_weight(‘balanced’, np.unique(y_train), y_train) 6 # クラスの重みを辞書に変換 7 class_weight_dict = dict(zip(np.unique(y_train), class_weights)) TypeError: compute_class_weight() takes 1 positional argument but 3 were given

2024年6月8日未分類

compute_class_weight関数は3つの引数を受け取る必要がありますが、3つ与えられています。これは関数の引数の数が間違っていることを示しています。

compute_class_weight関数は、クラスの重み ...

記事を読む from sklearn.uti ...

from sklearn.preprocessing import LabelEncoder import xgboost as xgb # LabelEncoderを使用してクラスラベルを変換する label_encoder = LabelEncoder() y_train_encoded = label_encoder.fit_transform(y_train) y_test_encoded = label_encoder.transform(y_test) # XGBoostモデルの作成とトレーニング xgb_model = xgb.XGBClassifier(n_estimators=1000, random_state=100) xgb_model.fit(X_train, y_train_encoded) # テストセットでの予測 y_pred_encoded = xgb_model.predict(X_test) # モデルの評価 accuracy = accuracy_score(y_test_encoded, y_pred_encoded) precision = precision_score(y_test_encoded, y_pred_encoded, average=’weighted’) recall = recall_score(y_test_encoded, y_pred_encoded, average=’weighted’) f1 = f1_score(y_test_encoded, y_pred_encoded, average=’weighted’) roc_auc = roc_auc_score(y_test_encoded, xgb_model.predict_proba(X_test), multi_class=’ovr’) print(“Accuracy:”, accuracy) print(“Precision:”, precision) print(“Recall:”, recall) print(“F1 Score:”, f1) print(“ROC AUC Score:”, roc_auc)

2024年6月8日未分類

XGBoostモデルを使用していますね。モデルの評価指標が表示されていますが、どのようなデータセットを扱っているか、またその問題がどのような性質を持っているかによって、これらのスコアがどのように解釈されるかが異なります。

...

記事を読む from sklearn.pre ...

クラスの不均衡にクラスの重みづけで対応してみたい

2024年6月8日未分類

2024年6月17日

クラスの重み付けを使用してクラスの不均衡に対処する方法は、少数クラスに大きな重みを割り当てることで、モデルがそのクラスをより重視するように促すことです。一般的に、不均衡なクラスを持つ問題では、重み付けされた損失関数を使用してモデルを訓 ...

記事を読むクラスの不均衡に ...

AUCがたかくて、accuracy,precision,recallが低い、オーバーサンプリングかアンダーサンプリングをしたほうが良いか？

2024年6月8日未分類

AUCが高いが、accuracy、precision、recallが低い場合、クラスの不均衡が原因である可能性があります。このような場合、オーバーサンプリングやアンダーサンプリングなどの手法を使用してデータセットを調整することが役立ち ...

記事を読む AUCがたかくて、a ...

Best Parameters: {‘colsample_bytree’: 0.6431565707973218, ‘learning_rate’: 0.019428755706020276, ‘max_depth’: 9, ‘n_estimators’: 340, ‘subsample’: 0.7257423924305306} これは、ランダムサーチの結果です。このパラメーターをベースにして、グリッドサーチで探索してほしい。

2024年6月8日未分類

ランダムサーチで得られた最適なパラメーターをベースにして、グリッドサーチを行うコードは以下のようになります。

python
from sklearn.model_selection import GridSearchCV ...

記事を読む Best Parameters: ...

ランダムサーチを活かしたベイズ最適化のコードくれ

2024年6月8日未分類

以下は、ランダムサーチの結果を初期値としてベイズ最適化を行うためのサンプルコードです。ここでは、scikit-optimizeライブラリを使用しています。

python
from skopt import BayesSe ...

記事を読むランダムサーチを ...

Best Parameters: {‘colsample_bytree’: 0.6431565707973218, ‘learning_rate’: 0.019428755706020276, ‘max_depth’: 9, ‘n_estimators’: 340, ‘subsample’: 0.7257423924305306} ランダムサーチの結果、上記だったんだ。これを活かせないか？

2024年6月8日未分類

ランダムサーチで得られた最適なハイパーパラメータセットは、ベイズ最適化の初期値として活用できます。ベイズ最適化はランダムサーチよりも効率的にハイパーパラメータを探索することができるため、ランダムサーチの結果を初期値として与えることで、 ...

記事を読む Best Parameters: ...

ベイズ最適化でクロスバリデーションをしたい

2024年6月8日未分類

2024年6月17日

ベイズ最適化のイテレーション回数は、n_iterパラメータで指定され、クロスバリデーションの回数はcvパラメータで指定されます。ですので、ベイズ最適化のイテレーション回数とクロスバリデーションの回数を合計したものが、総イテレーションの ...

記事を読むベイズ最適化でク ...

n_iter=50　これは50回のイテレーション？

2024年6月8日未分類

2024年6月17日

ベイズ最適化のイテレーション回数は、n_iterパラメータで指定されます。上記の例では、n_iter=50となっていますので、50回のイテレーションが行われます。

記事を読む n_iter=50　これ ...

ベイズ最適化をしてみたい

2024年6月8日未分類

ベイズ最適化は、ランダムサーチよりも効率的にハイパーパラメータの最適化を行う手法です。ベイズ最適化では、過去の試行結果に基づいてハイパーパラメータの選択を進化させることで、より良い候補を提案します。

以下は、Scikit- ...

記事を読むベイズ最適化をしてみたい

Best Parameters: {‘colsample_bytree’: 0.6431565707973218, ‘learning_rate’: 0.019428755706020276, ‘max_depth’: 9, ‘n_estimators’: 340, ‘subsample’: 0.7257423924305306} Accuracy: 0.5543345543345544 Precision: 0.5215769114241183 Recall: 0.5543345543345544 F1 Score: 0.5190071834938049 ROC AUC Score: 0.8012548849572678 上記の結果が出た。 RF_ベースモデル_est100ベースモデル_est500商品名の除外メーカー品番をラベルエンコーディング追加商品名の記号置換商品名のラベルエンコーディング追加商品名のCountVectorizerの除外標準化XB_ベースモデル_est=1000XB_ランダムサーチ Accuracy:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.554334554 Precision:0.5315840.5277868790.4782995730.5402894350.5314114290.5392694230.5214282930.5402894350.5237452480.521576911 Recall:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.554334554 F10.5259812770.5214738420.481048240.5319235320.5225131660.5370858670.5254654420.5319235320.5251315840.519007183 ROC0.7550416090.7828641750.7191715240.7903844320.7616002680.7545344520.7385223670.7903920030.726494170.801254885

2024年6月8日未分類

上記の結果を見ると、ランダムサーチを使用して見つかったハイパーパラメータの組み合わせによるXGBoostモデルの性能は、他のモデルと比較してどうなっているかを確認できます。

ランダムサーチを使用したXGBoostモデルの精度（A ...

記事を読む Best Parameters: ...

XGBOOSTで行っているけど、ランダムサーチで、目星をつけて、その周辺をベイス最適化させたらどうか？

2024年6月8日未分類

2024年6月17日

ランダムサーチを使用して周辺領域を探索し、その結果をベイズ最適化に供給するというアイデアは良いですね。これにより、ランダムに選択されたハイパーパラメータの結果をもとに、より効率的に探索を進めることができます。ベイズ最適化は、これまでの ...

記事を読む XGBOOSTで行って ...

機械学習ってさ、時間をかけて全パターン試せば、最適解が出るって事？

2024年6月8日未分類

機械学習の目的は、データからパターンを見つけて問題を解決することです。しかし、すべての可能なパラメータの組み合わせを試すことは、現実的ではありません。理由はいくつかあります：

計算量の問題：パラメータの数が増えると、探索す ...

記事を読む機械学習ってさ、 ...

ランダムサーチの結果から、その周辺を探ったらどうかな？

2024年6月8日未分類

ランダムサーチの結果をもとに、その周辺を探索する手法として、グリッドサーチやベイズ最適化などの手法があります。

グリッドサーチ（Grid Search）:
グリッドサーチは、事前に指定したパラメータの値の組み合わせ ...

記事を読むランダムサーチの ...

n_iter×cv＝300だから、300回のイテレーションログが出力されるの？

2024年6月8日未分類

はい、正しいです。n_iterパラメータが100であり、cvパラメータが3であるため、総イテレーション数は300になります。各イテレーションごとに詳細なログが出力されるので、300回のイテレーションに対してログが表示されることになりま ...

記事を読む n_iter×cv＝300だ ...

random_search = RandomizedSearchCV(estimator=xgb_model, param_distributions=param_dist, n_iter=100, cv=3, scoring=’accuracy’, verbose=2, random_state=42, n_jobs=-1)これについて詳しく

2024年6月8日未分類

2024年6月17日

このコードは、Scikit-learnのRandomizedSearchCVクラスを使用してハイパーパラメータのランダムな探索を行っています。以下に、各パラメータについての詳細を説明します。

estimator: ベースとなる推 ...

記事を読む random_search = ...

from sklearn.model_selection import RandomizedSearchCV from scipy.stats import uniform, randint # チューニングするハイパーパラメータの範囲を定義 param_dist = { ‘n_estimators’: randint(100, 1000), ‘max_depth’: randint(3, 10), ‘learning_rate’: uniform(0.01, 0.3), ‘subsample’: uniform(0.6, 0.4), ‘colsample_bytree’: uniform(0.6, 0.4), } # ランダムサーチを行う random_search = RandomizedSearchCV(estimator=xgb_model, param_distributions=param_dist, n_iter=100, cv=3, scoring=’accuracy’, verbose=2, random_state=42, n_jobs=-1) random_search.fit(X_train, y_train_encoded) # 最適なモデルを取得 best_model = random_search.best_estimator_ # 最適なモデルで予測を行う y_pred_encoded = best_model.predict(X_test) # モデルの評価 accuracy = accuracy_score(y_test_encoded, y_pred_encoded) precision = precision_score(y_test_encoded, y_pred_encoded, average=’weighted’) recall = recall_score(y_test_encoded, y_pred_encoded, average=’weighted’) f1 = f1_score(y_test_encoded, y_pred_encoded, average=’weighted’) roc_auc = roc_auc_score(y_test_encoded, best_model.predict_proba(X_test), multi_class=’ovr’) print(“Best Parameters:”, random_search.best_params_) print(“Accuracy:”, accuracy) print(“Precision:”, precision) print(“Recall:”, recall) print(“F1 Score:”, f1) print(“ROC AUC Score:”, roc_auc) print(accuracy,precision,recall,f1,roc_auc) いつ終わるのこれ？何組？

2024年6月8日未分類

このランダムサーチの処理は、n_iter=100で指定された数のイテレーションを行います。各イテレーションでは、指定されたハイパーパラメータの範囲内でランダムな値を選択してモデルをトレーニングし、交差検証を行います。そして、最適なハイ ...

記事を読む from sklearn.mod ...

RandomizedSearchCVのn_iterパラメータが100とは？

2024年6月8日未分類

2024年6月17日

RandomizedSearchCVのn_iterパラメータが100に設定されています。これは、ランダムサーチが試行するハイパーパラメータの組み合わせの数を指定しています。つまり、100組の異なるハイパーパラメータの組み合わせが試され ...

記事を読む RandomizedSearch ...

random_search = RandomizedSearchCV(estimator=xgb_model, param_distributions=param_dist, n_iter=100, cv=3, scoring=’accuracy’, verbose=2, random_state=42, n_jobs=-1)これは、何パターン試すの？

2024年6月8日未分類

2024年6月17日

RandomizedSearchCVは、指定されたハイパーパラメータの空間からランダムにサンプルを抽出し、指定された試行回数（n_iter）だけ個別のハイパーパラメータの組み合わせを試行します。つまり、n_iter回だけ異なるパラメー ...

記事を読む random_search = ...