ぼっち | ページ 70 | ALL Python(オールパイソン)

pipeline = SMOTEPipeline([ (‘classifier’, MultinomialNB())])このSMOTEPipelineって、なにしてるの？Smoteしてるの？

2024年6月8日未分類

2024年6月17日

SMOTEPipelineは、imbalanced-learn（imblearn）ライブラリからインポートされるパイプラインクラスです。このパイプラインは、データの不均衡を解消するためにSMOTE（Synthetic Minority ...

記事を読む pipeline = SMOTE ...

smote = SMOTE(random_state=42)X_resampled, y_resampled = smote.fit_resample(X_combined, y)# データの分割X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.3, random_state=42)# パイプラインの定義pipeline = SMOTEPipeline([ (‘classifier’, MultinomialNB())])でも、データ分割の前にSMOTEした方がいいんじゃない？

2024年6月8日未分類

2024年6月17日

はい、データの分割よりも前にオーバーサンプリングを行う方が良いでしょう。これは、テストデータがトレーニングデータに漏れることを防ぐためです。SMOTEを使用してデータをオーバーサンプリングした後、トレーニングデータとテストデータに分割 ...

記事を読む smote = SMOTE(ra ...

pipeline = SMOTEPipeline([ (‘classifier’, MultinomialNB()) ]) SMOTEPipelineってなに

2024年6月8日未分類

SMOTEPipelineは、imbalanced-learn（imblearn）ライブラリで提供されるパイプラインの一種です。このパイプラインは、データの不均衡を解決するためにSMOTE（Synthetic Minority Ove ...

記事を読む pipeline = SMOTE ...

大量にデータがあると、プロットするのは難しいよね。見にくくなるよね

2024年6月8日未分類

はい、大量のデータをプロットすると可視化が複雑になり、見にくくなる可能性があります。この場合、データのサンプリングや集約を行うことで、プロットをより見やすくすることができます。また、カテゴリ変数の場合は、カテゴリごとの集計値を計算し、 ...

記事を読む大量にデータがあ ...

カテゴリ変数をプロットできる？

2024年6月8日未分類

はい、カテゴリ変数をプロットすることは可能です。一般的な方法の1つは、カテゴリ変数のユニークな値の出現頻度を棒グラフや円グラフなどで可視化することです。これにより、カテゴリ変数の分布やバランスを視覚的に理解することができます。 ...

記事を読むカテゴリ変数をプロットできる？

100サイズや80サイズの精度が低いんだよね、どうしたらいいと思う？

2024年6月8日未分類

100サイズや80サイズの精度が低い場合、いくつかのアプローチを考えることができます。

特徴量の改善: モデルの精度を向上させるために、特徴量エンジニアリングを行うことが有効です。特に、そのサイズに特有の特徴やパターンを捉 ...

記事を読む 100サイズや80サ ...

下記は、梱包サイズの目的変数ごとの、多クラス分類の指標結果。どう考察する？ precision recall f1-score support 60 0.80 0.59 0.68 469 80 0.65 0.72 0.69 496 100 0.56 0.61 0.59 423 120 0.77 0.76 0.77 485 140 0.76 0.84 0.80 466 160 0.87 0.86 0.87 468 accuracy 0.73 2807 macro avg 0.74 0.73 0.73 2807weighted avg 0.74 0.73 0.73 2807

2024年6月8日未分類

2024年6月17日

これらの指標結果を考察すると、各梱包サイズにおける分類モデルの性能を把握できます。

Precision（適合率）: 適合率は、各クラスにおいてモデルが正しく分類したサンプルの割合を示します。例えば、サイズが160の場合、87%の ...

記事を読む下記は、梱包サイ ...

AUCが高いということは、モデルが真陽性率を高くし、同時に偽陽性率を低く保つ能力があることを示します。つまり、正しい予測をする確率が高いと言えます。でも、実際は高くないんでしょ？

2024年6月8日未分類

あなたが提示した数値によると、AUCは0.938でかなり高いです。これは一般的に高いと考えられます。AUCが高いということは、モデルが真陽性率を高くし、同時に偽陽性率を低く保つ能力があることを示します。

ただし、その他の指 ...

記事を読む AUCが高いという ...

AUCが高いという事は、何を意味するの？

2024年6月8日未分類

AUC（Area Under the ROC Curve）が高いということは、モデルが良い性能を示している可能性が高いことを示します。ROC曲線は、真陽性率（True Positive Rate、TPR）と偽陽性率（False Pos ...

記事を読む AUCが高いという ...

AUC以外をみたら、全体的に0.75程度であり、あまり性能が良いとは言えないかな？

2024年6月8日未分類

2024年6月17日

確かに、AUC以外の指標をみると、モデルの性能があまり高くない可能性があります。特に正確度（Accuracy）や適合率（Precision）、再現率（Recall）が全体的に0.75程度であり、これらの値はランダムな分類器の場合と比較 ...

記事を読む AUC以外をみたら ...

Accuracy:0.747773424 Precision:0.75 Recall:0.75 F1:0.75 AUC:0.938 この数値はどうだろうか？

2024年6月8日未分類

与えられた数値を見ると、モデルの性能はかなり高いようです。

正確度（Accuracy）は0.747773424で、一般的な基準を満たしています。
適合率（Precision）と再現率（Recall）は両方とも0.75であり ...

記事を読む Accuracy:0.74777 ...

分類の正確度についての具体例　例えば、60％の正確度なら、少し良いとか、90％ならとても良いとか

2024年6月8日未分類

2024年6月17日

理解しやすい表現として、正確度を以下のように分類してみることができます：

60%未満: 低い – モデルの性能が不十分であり、改善が必要です。
60% – 70%: 少し低い – モデル ...

記事を読む分類の正確度につ ...

トレーニングデータのサブサンプルってなに

2024年6月8日未分類

トレーニングデータのサブサンプルとは、トレーニングデータ全体から一部のデータをランダムに選択して取り出したものを指します。この部分集合は、モデルの学習に使用されます。サブサンプルの割合は、subsampleというハイパーパラメータで指 ...

記事を読むトレーニングデー ...

ランダムフォレストのハイパーパラメータについて

2024年6月8日未分類

2024年6月17日

もちろんです。それぞれのハイパーパラメータについて簡単に説明します。

num_leaves: 決定木のノードに含まれる葉（leaf）の数を指定します。葉の数が多いほどモデルの表現力が高くなりますが、過学習のリスクも高まります。

記事を読むランダムフォレス ...

PCのメモリーって4，8，16，32、64ってあるけど、その上もあるの？

2024年6月8日未分類

はい、PCのメモリ容量には4GB、8GB、16GB、32GB、64GBなどの一般的な容量がありますが、これら以外にもさまざまな容量のメモリが存在します。一部のハイエンドのワークステーションやサーバーでは、128GB、256GB、512 ...

記事を読む PCのメモリーって ...

LightGBMError: Cannot change feature_pre_filter after constructed Dataset handle.

2024年6月8日未分類

2024年6月17日

このエラーは、LightGBMで feature_pre_filter パラメータを動的に変更しようとしていることに関連しています。LightGBMの仕様では、データセットハンドルが構築された後に feature_pre_filter ...

記事を読む LightGBMError: C ...

LightGBMでベイズ最適化したい

2024年6月8日未分類

2024年6月17日

ベイズ最適化を行うために、hyperopt ライブラリを使用してハイパーパラメータの探索を行います。以下に、hyperopt を用いた LightGBM モデルのベイズ最適化の例を示します。

pythonfrom hyperop ...

記事を読む LightGBMでベイズ ...

————————————————————————— LightGBMError Traceback (most recent call last) Cell In[3], line 21 7 params = { 8 ‘boosting_type’: ‘gbdt’, 9 ‘objective’: ‘multiclass’, (…) 17 ‘verbose’: 0 18 } 20 # LightGBMのトレーニング —> 21 lgb_model = lgb.train(params, lgb_train, num_boost_round=100) 23 # テストデータでの予測 24 y_pred_lgb = lgb_model.predict(X_rf_test, num_iteration=lgb_model.best_iteration) File /home/share/temp/venv/lib/python3.8/site-packages/lightgbm/engine.py:255, in train(params, train_set, num_boost_round, valid_sets, valid_names, feval, init_model, feature_name, categorical_feature, keep_training_booster, callbacks) 253 # construct booster 254 try: –> 255 booster = Booster(params=params, train_set=train_set) 256 if is_valid_contain_train: 257 booster.set_train_data_name(train_data_name) File /home/share/temp/venv/lib/python3.8/site-packages/lightgbm/basic.py:3437, in Booster.init(self, params, train_set, model_file, model_str) 3435 params.update(train_set.get_params()) 3436 params_str = _param_dict_to_str(params) -> 3437 _safe_call(_LIB.LGBM_BoosterCreate( … 261 “”” 262 if ret != 0: –> 263 raise LightGBMError(_LIB.LGBM_GetLastError().decode(‘utf-8’)) LightGBMError: Label must be in [0, 6), but found 160 in label

2024年6月8日未分類

エラーが発生しています。ラベルがの範囲内に収まっているかどうかを確認してください。また、データの前処理が正しく行われていることを再度確認してください。

記事を読む ——&# ...

LightGBMError: Label must be in [0, 6), but found 160 in label

2024年6月8日未分類

2024年6月17日

エラーの原因は、ラベルの値が許容される範囲外にあることです。LightGBMでは、クラスのラベルは0からnum_class - 1までの範囲である必要があります。エラーメッセージによると、ラベルの値は0から5までの範囲内である必要があ ...

記事を読む LightGBMError: L ...

scikitlearnでn_jobsが使えるアンサンブル学習は？

2024年6月8日未分類

Scikit-learnのアンサンブル学習モデルの中で、n_jobsパラメータを使用して並列処理を行うことができるものはいくつかあります。主なものを以下に示します：

RandomForestClassifier/Rando ...

記事を読む scikitlearnでn_j ...

n_jobsは何の略

2024年6月8日未分類

n_jobsは”Number of Jobs”の略です。このパラメータは、並列処理に使用されるCPUの数を指定します。デフォルトでは、この値は1に設定されており、つまり1つのCPUコアで処理が実行されます。n_ ...

記事を読む n_jobsは何の略

ランダムフォレストのデフォルト設定では、n_jobsパラメータはどうなってるの？

2024年6月8日未分類

2024年6月17日

ランダムフォレストのデフォルト設定では、n_jobsパラメータは1になっています。つまり、デフォルトでは並列処理は使用されません。そのため、デフォルト設定では1つのCPUコアが使用されます。

以下のようにして、デフォルト設 ...

記事を読むランダムフォレス ...