Merge remote-tracking branch 'origin/develop' into spice-rack

2022-10-08 12:25:46 +02:00
parent c31f322349 e337d4b78a
commit d362332527
99 changed files with 2734 additions and 1313 deletions
@@ -92,7 +92,7 @@ class BaseClassifierModel(IFreqaiModel):
        filtered_df = dk.normalize_data_from_metadata(filtered_df)
        dk.data_dictionary["prediction_features"] = filtered_df

-        self.data_cleaning_predict(dk, filtered_df)
+        self.data_cleaning_predict(dk)

        predictions = self.model.predict(dk.data_dictionary["prediction_features"])
        pred_df = DataFrame(predictions, columns=dk.label_list)
@@ -92,7 +92,7 @@ class BaseRegressionModel(IFreqaiModel):
        dk.data_dictionary["prediction_features"] = filtered_df

        # optional additional data cleaning/analysis
-        self.data_cleaning_predict(dk, filtered_df)
+        self.data_cleaning_predict(dk)

        predictions = self.model.predict(dk.data_dictionary["prediction_features"])
        pred_df = DataFrame(predictions, columns=dk.label_list)
@@ -257,7 +257,7 @@ class FreqaiDataDrawer:

    def append_model_predictions(self, pair: str, predictions: DataFrame,
                                 do_preds: NDArray[np.int_],
-                                 dk: FreqaiDataKitchen, len_df: int) -> None:
+                                 dk: FreqaiDataKitchen, strat_df: DataFrame) -> None:
        """
        Append model predictions to historic predictions dataframe, then set the
        strategy return dataframe to the tail of the historic predictions. The length of
@@ -266,6 +266,7 @@ class FreqaiDataDrawer:
        historic predictions.
        """

+        len_df = len(strat_df)
        index = self.historic_predictions[pair].index[-1:]
        columns = self.historic_predictions[pair].columns

@@ -293,6 +294,15 @@ class FreqaiDataDrawer:
            for return_str in rets:
                df[return_str].iloc[-1] = rets[return_str]

+        # this logic carries users between version without needing to
+        # change their identifier
+        if 'close_price' not in df.columns:
+            df['close_price'] = np.nan
+            df['date_pred'] = np.nan
+
+        df['close_price'].iloc[-1] = strat_df['close'].iloc[-1]
+        df['date_pred'].iloc[-1] = strat_df['date'].iloc[-1]
+
        self.model_return_values[pair] = df.tail(len_df).reset_index(drop=True)

    def attach_return_values_to_return_dataframe(
@@ -313,6 +323,7 @@ class FreqaiDataDrawer:
        """

        dk.find_features(dataframe)
+        dk.find_labels(dataframe)

        full_labels = dk.label_list + dk.unique_class_list

@@ -376,7 +387,27 @@ class FreqaiDataDrawer:
        if self.config.get("freqai", {}).get("purge_old_models", False):
            self.purge_old_models()

-    # Functions pulled back from FreqaiDataKitchen because they relied on DataDrawer
+    def save_metadata(self, dk: FreqaiDataKitchen) -> None:
+        """
+        Saves only metadata for backtesting studies if user prefers
+        not to save model data. This saves tremendous amounts of space
+        for users generating huge studies.
+        This is only active when `save_backtest_models`: false (not default)
+        """
+        if not dk.data_path.is_dir():
+            dk.data_path.mkdir(parents=True, exist_ok=True)
+
+        save_path = Path(dk.data_path)
+
+        dk.data["data_path"] = str(dk.data_path)
+        dk.data["model_filename"] = str(dk.model_filename)
+        dk.data["training_features_list"] = list(dk.data_dictionary["train_features"].columns)
+        dk.data["label_list"] = dk.label_list
+
+        with open(save_path / f"{dk.model_filename}_metadata.json", "w") as fp:
+            rapidjson.dump(dk.data, fp, default=self.np_encoder, number_mode=rapidjson.NM_NATIVE)
+
+        return

    def save_data(self, model: Any, coin: str, dk: FreqaiDataKitchen) -> None:
        """
@@ -402,7 +433,7 @@ class FreqaiDataDrawer:

        dk.data["data_path"] = str(dk.data_path)
        dk.data["model_filename"] = str(dk.model_filename)
-        dk.data["training_features_list"] = list(dk.data_dictionary["train_features"].columns)
+        dk.data["training_features_list"] = dk.training_features_list
        dk.data["label_list"] = dk.label_list
        # store the metadata
        with open(save_path / f"{dk.model_filename}_metadata.json", "w") as fp:
@@ -586,7 +617,8 @@ class FreqaiDataDrawer:
                "include_corr_pairlist", []
            )
            for tf in self.freqai_info["feature_parameters"].get("include_timeframes"):
-                base_dataframes[tf] = dk.slice_dataframe(timerange, historic_data[pair][tf])
+                base_dataframes[tf] = dk.slice_dataframe(
+                    timerange, historic_data[pair][tf]).reset_index(drop=True)
                if pairs:
                    for p in pairs:
                        if pair in p:
@@ -595,7 +627,7 @@ class FreqaiDataDrawer:
                            corr_dataframes[p] = {}
                        corr_dataframes[p][tf] = dk.slice_dataframe(
                            timerange, historic_data[p][tf]
-                        )
+                        ).reset_index(drop=True)

        return corr_dataframes, base_dataframes

@@ -135,20 +135,15 @@ class FreqaiDataKitchen:
        """
        feat_dict = self.freqai_config["feature_parameters"]

+        if 'shuffle' not in self.freqai_config['data_split_parameters']:
+            self.freqai_config["data_split_parameters"].update({'shuffle': False})
+
        weights: npt.ArrayLike
        if feat_dict.get("weight_factor", 0) > 0:
            weights = self.set_weights_higher_recent(len(filtered_dataframe))
        else:
            weights = np.ones(len(filtered_dataframe))

-        if feat_dict.get("stratify_training_data", 0) > 0:
-            stratification = np.zeros(len(filtered_dataframe))
-            for i in range(1, len(stratification)):
-                if i % feat_dict.get("stratify_training_data", 0) == 0:
-                    stratification[i] = 1
-        else:
-            stratification = None
-
        if self.freqai_config.get('data_split_parameters', {}).get('test_size', 0.1) != 0:
            (
                train_features,
@@ -161,7 +156,6 @@ class FreqaiDataKitchen:
                filtered_dataframe[: filtered_dataframe.shape[0]],
                labels,
                weights,
-                stratify=stratification,
                **self.config["freqai"]["data_split_parameters"],
            )
        else:
@@ -211,7 +205,7 @@ class FreqaiDataKitchen:
        filtered_df = unfiltered_df.filter(training_feature_list, axis=1)
        filtered_df = filtered_df.replace([np.inf, -np.inf], np.nan)

-        drop_index = pd.isnull(filtered_df).any(1)  # get the rows that have NaNs,
+        drop_index = pd.isnull(filtered_df).any(axis=1)  # get the rows that have NaNs,
        drop_index = drop_index.replace(True, 1).replace(False, 0)  # pep8 requirement.
        if (training_filter):
            const_cols = list((filtered_df.nunique() == 1).loc[lambda x: x].index)
@@ -222,7 +216,7 @@ class FreqaiDataKitchen:
            # about removing any row with NaNs
            # if labels has multiple columns (user wants to train multiple modelEs), we detect here
            labels = unfiltered_df.filter(label_list, axis=1)
-            drop_index_labels = pd.isnull(labels).any(1)
+            drop_index_labels = pd.isnull(labels).any(axis=1)
            drop_index_labels = drop_index_labels.replace(True, 1).replace(False, 0)
            dates = unfiltered_df['date']
            filtered_df = filtered_df[
@@ -250,7 +244,7 @@ class FreqaiDataKitchen:
        else:
            # we are backtesting so we need to preserve row number to send back to strategy,
            # so now we use do_predict to avoid any prediction based on a NaN
-            drop_index = pd.isnull(filtered_df).any(1)
+            drop_index = pd.isnull(filtered_df).any(axis=1)
            self.data["filter_drop_index_prediction"] = drop_index
            filtered_df.fillna(0, inplace=True)
            # replacing all NaNs with zeros to avoid issues in 'prediction', but any prediction
@@ -809,7 +803,7 @@ class FreqaiDataKitchen:
                :, :no_prev_pts
            ]
        distances = distances.replace([np.inf, -np.inf], np.nan)
-        drop_index = pd.isnull(distances).any(1)
+        drop_index = pd.isnull(distances).any(axis=1)
        distances = distances[drop_index == 0]

        inliers = pd.DataFrame(index=distances.index)
@@ -832,7 +826,7 @@ class FreqaiDataKitchen:

        inlier_metric = pd.DataFrame(
            data=inliers.sum(axis=1) / no_prev_pts,
-            columns=['inlier_metric'],
+            columns=['%-inlier_metric'],
            index=compute_df.index
        )

@@ -882,11 +876,15 @@ class FreqaiDataKitchen:
        """
        column_names = dataframe.columns
        features = [c for c in column_names if "%" in c]
-        labels = [c for c in column_names if "&" in c]
+
        if not features:
            raise OperationalException("Could not find any features!")

        self.training_features_list = features
+
+    def find_labels(self, dataframe: DataFrame) -> None:
+        column_names = dataframe.columns
+        labels = [c for c in column_names if "&" in c]
        self.label_list = labels

    def check_if_pred_in_training_spaces(self) -> None:
@@ -1207,7 +1205,8 @@ class FreqaiDataKitchen:

    def get_unique_classes_from_labels(self, dataframe: DataFrame) -> None:

-        self.find_features(dataframe)
+        # self.find_features(dataframe)
+        self.find_labels(dataframe)

        for key in self.label_list:
            if dataframe[key].dtype == object:
@@ -92,6 +92,7 @@ class IFreqaiModel(ABC):
        self.begin_time_train: float = 0
        self.base_tf_seconds = timeframe_to_seconds(self.config['timeframe'])
        self.continual_learning = self.freqai_info.get('continual_learning', False)
+        self.plot_features = self.ft_params.get("plot_feature_importances", 0)
        self.spice_rack_open: bool = False
        self._threads: List[threading.Thread] = []
        self._stop_event = threading.Event()
@@ -210,7 +211,8 @@ class IFreqaiModel(ABC):
                        new_trained_timerange, pair, strategy, dk, data_load_timerange
                    )
                except Exception as msg:
-                    logger.warning(f'Training {pair} raised exception {msg}, skipping.')
+                    logger.warning(f"Training {pair} raised exception {msg.__class__.__name__}. "
+                                   f"Message: {msg}, skipping.")

                self.train_timer('stop')

@@ -274,26 +276,28 @@ class IFreqaiModel(ABC):

            if dk.check_if_backtest_prediction_exists():
                self.dd.load_metadata(dk)
-                self.check_if_feature_list_matches_strategy(dataframe_train, dk)
+                dk.find_features(dataframe_train)
+                self.check_if_feature_list_matches_strategy(dk)
                append_df = dk.get_backtesting_prediction()
                dk.append_predictions(append_df)
            else:
-                if not self.model_exists(
-                    pair, dk, trained_timestamp=trained_timestamp_int
-                ):
+                if not self.model_exists(dk):
                    dk.find_features(dataframe_train)
+                    dk.find_labels(dataframe_train)
                    self.model = self.train(dataframe_train, pair, dk)
                    self.dd.pair_dict[pair]["trained_timestamp"] = int(
                        trained_timestamp.stopts)
-
+                    if self.plot_features:
+                        plot_feature_importance(self.model, pair, dk, self.plot_features)
                    if self.save_backtest_models:
                        logger.info('Saving backtest model to disk.')
                        self.dd.save_data(self.model, pair, dk)
+                    else:
+                        logger.info('Saving metadata to disk.')
+                        self.dd.save_metadata(dk)
                else:
                    self.model = self.dd.load_data(pair, dk)

-                self.check_if_feature_list_matches_strategy(dataframe_train, dk)
-
                pred_df, do_preds = self.predict(dataframe_backtest, dk)
                append_df = dk.get_predictions_to_append(pred_df, do_preds)
                dk.append_predictions(append_df)
@@ -372,8 +376,7 @@ class IFreqaiModel(ABC):
            self.dd.return_null_values_to_strategy(dataframe, dk)
            return dk

-        # ensure user is feeding the correct indicators to the model
-        self.check_if_feature_list_matches_strategy(dataframe, dk)
+        dk.find_labels(dataframe)

        self.build_strategy_return_arrays(dataframe, dk, metadata["pair"], trained_timestamp)

@@ -391,7 +394,7 @@ class IFreqaiModel(ABC):
            # allows FreqUI to show full return values.
            pred_df, do_preds = self.predict(dataframe, dk)
            if pair not in self.dd.historic_predictions:
-                self.set_initial_historic_predictions(pred_df, dk, pair)
+                self.set_initial_historic_predictions(pred_df, dk, pair, dataframe)
            self.dd.set_initial_return_values(pair, pred_df)

            dk.return_dataframe = self.dd.attach_return_values_to_return_dataframe(pair, dataframe)
@@ -412,13 +415,13 @@ class IFreqaiModel(ABC):

        if self.freqai_info.get('fit_live_predictions_candles', 0) and self.live:
            self.fit_live_predictions(dk, pair)
-        self.dd.append_model_predictions(pair, pred_df, do_preds, dk, len(dataframe))
+        self.dd.append_model_predictions(pair, pred_df, do_preds, dk, dataframe)
        dk.return_dataframe = self.dd.attach_return_values_to_return_dataframe(pair, dataframe)

        return

    def check_if_feature_list_matches_strategy(
-        self, dataframe: DataFrame, dk: FreqaiDataKitchen
+        self, dk: FreqaiDataKitchen
    ) -> None:
        """
        Ensure user is passing the proper feature set if they are reusing an `identifier` pointing
@@ -427,11 +430,12 @@ class IFreqaiModel(ABC):
        :param dk: FreqaiDataKitchen = non-persistent data container/analyzer for
                   current coin/bot loop
        """
-        dk.find_features(dataframe)
+
        if "training_features_list_raw" in dk.data:
            feature_list = dk.data["training_features_list_raw"]
        else:
            feature_list = dk.data['training_features_list']
+
        if dk.training_features_list != feature_list:
            raise OperationalException(
                "Trying to access pretrained model with `identifier` "
@@ -479,20 +483,23 @@ class IFreqaiModel(ABC):
        if self.freqai_info["feature_parameters"].get('noise_standard_deviation', 0):
            dk.add_noise_to_training_features()

-    def data_cleaning_predict(self, dk: FreqaiDataKitchen, dataframe: DataFrame) -> None:
+    def data_cleaning_predict(self, dk: FreqaiDataKitchen) -> None:
        """
        Base data cleaning method for predict.
        Functions here are complementary to the functions of data_cleaning_train.
        """
        ft_params = self.freqai_info["feature_parameters"]

+        # ensure user is feeding the correct indicators to the model
+        self.check_if_feature_list_matches_strategy(dk)
+
        if ft_params.get('inlier_metric_window', 0):
            dk.compute_inlier_metric(set_='predict')

        if ft_params.get(
            "principal_component_analysis", False
        ):
-            dk.pca_transform(self.dk.data_dictionary['prediction_features'])
+            dk.pca_transform(dk.data_dictionary['prediction_features'])

        if ft_params.get("use_SVM_to_remove_outliers", False):
            dk.use_SVM_to_remove_outliers(predict=True)
@@ -503,14 +510,7 @@ class IFreqaiModel(ABC):
        if ft_params.get("use_DBSCAN_to_remove_outliers", False):
            dk.use_DBSCAN_to_remove_outliers(predict=True)

-    def model_exists(
-        self,
-        pair: str,
-        dk: FreqaiDataKitchen,
-        trained_timestamp: int = None,
-        model_filename: str = "",
-        scanning: bool = False,
-    ) -> bool:
+    def model_exists(self, dk: FreqaiDataKitchen) -> bool:
        """
        Given a pair and path, check if a model already exists
        :param pair: pair e.g. BTC/USD
@@ -518,11 +518,11 @@ class IFreqaiModel(ABC):
        :return:
        :boolean: whether the model file exists or not.
        """
-        path_to_modelfile = Path(dk.data_path / f"{model_filename}_model.joblib")
+        path_to_modelfile = Path(dk.data_path / f"{dk.model_filename}_model.joblib")
        file_exists = path_to_modelfile.is_file()
-        if file_exists and not scanning:
+        if file_exists:
            logger.info("Found model at %s", dk.data_path / dk.model_filename)
-        elif not scanning:
+        else:
            logger.info("Could not find model at %s", dk.data_path / dk.model_filename)
        return file_exists

@@ -569,6 +569,7 @@ class IFreqaiModel(ABC):

        # find the features indicated by strategy and store in datakitchen
        dk.find_features(unfiltered_dataframe)
+        dk.find_labels(unfiltered_dataframe)

        model = self.train(unfiltered_dataframe, pair, dk)

@@ -576,14 +577,14 @@ class IFreqaiModel(ABC):
        dk.set_new_model_names(pair, new_trained_timerange)
        self.dd.save_data(model, pair, dk)

-        if self.freqai_info["feature_parameters"].get("plot_feature_importance", False):
-            plot_feature_importance(model, pair, dk)
+        if self.plot_features:
+            plot_feature_importance(model, pair, dk, self.plot_features)

        if self.freqai_info.get("purge_old_models", False):
            self.dd.purge_old_models()

    def set_initial_historic_predictions(
-        self, pred_df: DataFrame, dk: FreqaiDataKitchen, pair: str
+        self, pred_df: DataFrame, dk: FreqaiDataKitchen, pair: str, strat_df: DataFrame
    ) -> None:
        """
        This function is called only if the datadrawer failed to load an
@@ -626,6 +627,9 @@ class IFreqaiModel(ABC):
        for return_str in dk.data['extra_returns_per_train']:
            hist_preds_df[return_str] = 0

+        hist_preds_df['close_price'] = strat_df['close']
+        hist_preds_df['date_pred'] = strat_df['date']
+
        # # for keras type models, the conv_window needs to be prepended so
        # # viewing is correct in frequi
        if self.freqai_info.get('keras', False) or self.ft_params.get('inlier_metric_window', 0):
@@ -306,7 +306,7 @@ def plot_feature_importance(model: Any, pair: str, dk: FreqaiDataKitchen,

        # Data preparation
        fi_df = pd.DataFrame({
-            "feature_names": np.array(dk.training_features_list),
+            "feature_names": np.array(dk.data_dictionary['train_features'].columns),
            "feature_importance": np.array(feature_importance)
        })
        fi_df_top = fi_df.nlargest(count_max, "feature_importance")[::-1]