Merge pull request #438 from bmreiniger/fix_437

PaulWestenthanner · web-flow · commit 11fbba652034 · 2024-04-09T13:39:30.000+02:00
Fix for sklearn-pandas-out and refit
diff --git a/category_encoders/utils.py b/category_encoders/utils.py
@@ -320,6 +320,7 @@ def fit(self, X, y=None, **kwargs):
         self._fit(X, y, **kwargs)
 
         # for finding invariant columns transform without y (as is done on the test set)
+        self.feature_names_out_ = None  # Issue#437
         X_transformed = self.transform(X, override_return_df=True)
         self.feature_names_out_ = X_transformed.columns.tolist()
 
diff --git a/requirements-dev.txt b/requirements-dev.txt
@@ -1,4 +1,5 @@
 sphinx
 sphinx_rtd_theme
 pytest
-numpydoc
+numpydoc
+packaging
diff --git a/tests/test_utils.py b/tests/test_utils.py
@@ -1,5 +1,10 @@
 from unittest import TestCase  # or `from unittest import ...` if on Python 3.4+
-from category_encoders.utils import convert_input_vector, convert_inputs, get_categorical_cols
+import pytest
+from category_encoders.utils import convert_input_vector, convert_inputs, get_categorical_cols, BaseEncoder
+
+from sklearn.base import BaseEstimator, TransformerMixin
+from sklearn import __version__ as skl_version
+from packaging.version import Version
 import pandas as pd
 import numpy as np
 
@@ -120,3 +125,26 @@ def test_get_categorical_cols(self):
         self.assertEqual(get_categorical_cols(df.astype("object")), ["col"])
         self.assertEqual(get_categorical_cols(df.astype("category")), ["col"])
         self.assertEqual(get_categorical_cols(df.astype("string")), ["col"])
+
+
+class TestBaseEncoder(TestCase):
+    def setUp(self):
+        class DummyEncoder(BaseEncoder, BaseEstimator, TransformerMixin):
+            def _fit(self, X, y=None):
+                return self
+
+            def transform(self, X, y=None, override_return_df=False):
+                return X
+
+        self.encoder = DummyEncoder()
+
+    @pytest.mark.skipif(Version(skl_version) < Version('1.2'), reason="requires sklean > 1.2")
+    def test_sklearn_pandas_out_refit(self):
+        # Thanks to Issue#437
+        df = pd.DataFrame({"C1": ["a", "a"], "C2": ["c", "d"]})
+        self.encoder.set_output(transform="pandas")
+        self.encoder.fit_transform(df.iloc[:1])
+        out = self.encoder.fit_transform(
+                df.rename(columns={'C1': 'X1', 'C2': 'X2'})
+        )
+        self.assertTrue(list(out.columns) == ['X1', 'X2'])