add strat and config for testing on PR

2022-10-25 20:07:39 +01:00
parent 47056eded3
commit 217add70bd
4 changed files with 455 additions and 24 deletions
--- a/freqtrade/freqai/base_models/FreqaiMultiOutputClassifier.py
+++ b/freqtrade/freqai/base_models/FreqaiMultiOutputClassifier.py
@@ -1,10 +1,13 @@
+import numpy as np
 from joblib import Parallel
-from sklearn.multioutput import MultiOutputRegressor, _fit_estimator
+from sklearn.base import is_classifier
+from sklearn.multioutput import MultiOutputClassifier, _fit_estimator
 from sklearn.utils.fixes import delayed
-from sklearn.utils.validation import has_fit_parameter
+from sklearn.utils.multiclass import check_classification_targets
+from sklearn.utils.validation import check_is_fitted, has_fit_parameter


-class FreqaiMultiOutputRegressor(MultiOutputRegressor):
+class FreqaiMultiOutputClassifier(MultiOutputClassifier):

    def fit(self, X, y, sample_weight=None, fit_params=None):
        """Fit the model to data, separately for each output variable.
@@ -17,7 +20,7 @@ class FreqaiMultiOutputRegressor(MultiOutputRegressor):
            estimation.
        sample_weight : array-like of shape (n_samples,), default=None
            Sample weights. If `None`, then samples are equally weighted.
-            Only supported if the underlying regressor supports sample
+            Only supported if the underlying classifier supports sample
            weights.
        fit_params : A list of dicts for the fit_params
            Parameters passed to the ``estimator.fit`` method of each step.
@@ -35,6 +38,9 @@ class FreqaiMultiOutputRegressor(MultiOutputRegressor):

        y = self._validate_data(X="no_validation", y=y, multi_output=True)

+        if is_classifier(self):
+            check_classification_targets(y)
+
        if y.ndim == 1:
            raise ValueError(
                "y must have at least two dimensions for "
@@ -56,9 +62,66 @@ class FreqaiMultiOutputRegressor(MultiOutputRegressor):
            for i in range(y.shape[1])
        )

+        self.classes_ = []
+        for estimator in self.estimators_:
+            self.classes_.extend(estimator.classes_)
+
        if hasattr(self.estimators_[0], "n_features_in_"):
            self.n_features_in_ = self.estimators_[0].n_features_in_
        if hasattr(self.estimators_[0], "feature_names_in_"):
            self.feature_names_in_ = self.estimators_[0].feature_names_in_

-        return
+        return self
+
+    def predict_proba(self, X):
+        """Return prediction probabilities for each class of each output.
+
+        This method will raise a ``ValueError`` if any of the
+        estimators do not have ``predict_proba``.
+
+        Parameters
+        ----------
+        X : array-like of shape (n_samples, n_features)
+            The input data.
+
+        Returns
+        -------
+        p : array of shape (n_samples, n_classes), or a list of n_outputs \
+                such arrays if n_outputs > 1.
+            The class probabilities of the input samples. The order of the
+            classes corresponds to that in the attribute :term:`classes_`.
+
+            .. versionchanged:: 0.19
+                This function now returns a list of arrays where the length of
+                the list is ``n_outputs``, and each array is (``n_samples``,
+                ``n_classes``) for that particular output.
+                """
+        check_is_fitted(self)
+        results = np.hstack([estimator.predict_proba(X) for estimator in self.estimators_])
+        return np.squeeze(results)
+
+    def predict(self, X):
+        """Predict multi-output variable using model for each target variable.
+
+        Parameters
+        ----------
+        X : {array-like, sparse matrix} of shape (n_samples, n_features)
+            The input data.
+
+        Returns
+        -------
+        y : {array-like, sparse matrix} of shape (n_samples, n_outputs)
+            Multi-output targets predicted across multiple predictors.
+            Note: Separate models are generated for each predictor.
+        """
+        check_is_fitted(self)
+        if not hasattr(self.estimators_[0], "predict"):
+            raise ValueError("The base estimator should implement a predict method")
+
+        y = Parallel(n_jobs=self.n_jobs)(
+            delayed(e.predict)(X) for e in self.estimators_
+        )
+
+        results = np.asarray(y).T
+
+        return np.squeeze(results)
--- a/freqtrade/freqai/prediction_models/CatboostClassifierMultiTarget.py
+++ b/freqtrade/freqai/prediction_models/CatboostClassifierMultiTarget.py
@@ -6,13 +6,14 @@ from typing import Any, Dict
 from catboost import CatBoostClassifier, Pool

 from freqtrade.freqai.base_models.BaseClassifierModel import BaseClassifierModel
+from freqtrade.freqai.base_models.FreqaiMultiOutputClassifier import FreqaiMultiOutputClassifier
 from freqtrade.freqai.data_kitchen import FreqaiDataKitchen


 logger = logging.getLogger(__name__)


-class CatboostClassifier(BaseClassifierModel):
+class CatboostClassifierMultiTarget(BaseClassifierModel):
    """
    User created prediction model. The class needs to override three necessary
    functions, predict(), train(), fit(). The class inherits ModelHandler which
@@ -26,30 +27,48 @@ class CatboostClassifier(BaseClassifierModel):
                                all the training and test data/labels.
        """

-        train_data = Pool(
-            data=data_dictionary["train_features"],
-            label=data_dictionary["train_labels"],
-            weight=data_dictionary["train_weights"],
-        )
-        if self.freqai_info.get("data_split_parameters", {}).get("test_size", 0.1) == 0:
-            test_data = None
-        else:
-            test_data = Pool(
-                data=data_dictionary["test_features"],
-                label=data_dictionary["test_labels"],
-                weight=data_dictionary["test_weights"],
-            )
-
-        cbr = CatBoostClassifier(
+        cbc = CatBoostClassifier(
            allow_writing_files=True,
            loss_function='MultiClass',
            train_dir=Path(dk.data_path),
            **self.model_training_parameters,
        )

+        X = data_dictionary["train_features"]
+        y = data_dictionary["train_labels"]
+
+        sample_weight = data_dictionary["train_weights"]
+
+        eval_sets = [None] * y.shape[1]
+
+        if self.freqai_info.get('data_split_parameters', {}).get('test_size', 0.1) != 0:
+            eval_sets = [None] * data_dictionary['test_labels'].shape[1]
+
+            for i in range(data_dictionary['test_labels'].shape[1]):
+                eval_sets[i] = Pool(
+                    data=data_dictionary["test_features"],
+                    label=data_dictionary["test_labels"].iloc[:, i],
+                    weight=data_dictionary["test_weights"],
+                )
+
        init_model = self.get_init_model(dk.pair)

-        cbr.fit(X=train_data, eval_set=test_data, init_model=init_model,
-                log_cout=sys.stdout, log_cerr=sys.stderr)
+        if init_model:
+            init_models = init_model.estimators_
+        else:
+            init_models = [None] * y.shape[1]

-        return cbr
+        fit_params = []
+        for i in range(len(eval_sets)):
+            fit_params.append({
+                'eval_set': eval_sets[i], 'init_model': init_models[i],
+                'log_cout': sys.stdout, 'log_cerr': sys.stderr,
+            })
+
+        model = FreqaiMultiOutputClassifier(estimator=cbc)
+        thread_training = self.freqai_info.get('multitarget_parallel_training', False)
+        if thread_training:
+            model.n_jobs = y.shape[1]
+        model.fit(X=X, y=y, sample_weight=sample_weight, fit_params=fit_params)
+
+        return model