Per48edjes · November 13, 2019 22:44
diff --git a/ColumnTransform_pipeline_field_extraction.py b/ColumnTransform_pipeline_field_extraction.py
 ## Split into holdout for purposes of imputation and encoding
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2, random_state=2019)
 class_labels = df['segment_label'].cat.categories

 ## Preprocessing pipeline

 # Define transforms on numeric types
 numeric_features = X.select_dtypes(np.number).columns
 numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

 # Define transforms on categorical types
 categorical_features = X.select_dtypes(['object', 'bool', 'category']).columns
 categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

 # Construct ColumnTransformer object
 preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='drop',
    verbose=True)

 # Visual inspection of transformed dataframe before CV
 preprocessor.fit_transform(X_train, y_train)
 enc_cat_features = preprocessor.named_transformers_['cat']['onehot'].get_feature_names()
 labels = np.concatenate([numeric_features, enc_cat_features])
 transformed_df_columns = pd.DataFrame(preprocessor.transform(X_train).toarray(), columns=labels).columns
 pp.pprint(transformed_df_columns)
	## Split into holdout for purposes of imputation and encoding
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2, random_state=2019)
	class_labels = df['segment_label'].cat.categories

	## Preprocessing pipeline

	# Define transforms on numeric types
	numeric_features = X.select_dtypes(np.number).columns
	numeric_transformer = Pipeline(steps=[
	('imputer', SimpleImputer(strategy='median')),
	('scaler', StandardScaler())])

	# Define transforms on categorical types
	categorical_features = X.select_dtypes(['object', 'bool', 'category']).columns
	categorical_transformer = Pipeline(steps=[
	('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
	('onehot', OneHotEncoder(handle_unknown='ignore'))])

	# Construct ColumnTransformer object
	preprocessor = ColumnTransformer(
	transformers=[
	('num', numeric_transformer, numeric_features),
	('cat', categorical_transformer, categorical_features)
	],
	remainder='drop',
	verbose=True)

	# Visual inspection of transformed dataframe before CV
	preprocessor.fit_transform(X_train, y_train)
	enc_cat_features = preprocessor.named_transformers_['cat']['onehot'].get_feature_names()
	labels = np.concatenate([numeric_features, enc_cat_features])
	transformed_df_columns = pd.DataFrame(preprocessor.transform(X_train).toarray(), columns=labels).columns
	pp.pprint(transformed_df_columns)