
Что на самом деле происходит в инженерии функций (и почему это важно)
22 июня 2025 г.Дорогие читатели,
Вы когда -нибудь обучали модель машинного обучения и задавались вопросом, почему она ведет себя как отвлеченного ученика во время поп -викторины? Если это так, позвольте мне познакомить вас с часто провозглашенным героем машинного трубопровода-Функциональная инженерияПолем
На этой неделе я погрузимся в то, что действительно происходит в инженерии функций - от предметов первой необходимости до элегантного, с чертой остроумия и брызги практической мудрости.
Зачем инженерии заслуживает вашего внимания
Чтобы выразить это ясно:
Если данные являются топливом, то функциональная инженерия - это процесс переработки. Без него ваш высокопроизводительный машинный двигатель просто висит в одном месте. Отличные функции могут превратить посредственную модель в шедевр.
Плохие черты? Ну, даже лучший алгоритм не может спасти вас от этого.
Думайте об этом как о выпечке - у вас может бытьЛучшая печь (модель), но если вы используетеСрок действия муки (функции), никто не будет съесть твой торт.
Три категории методов выбора функций
Давайте рассмотрим основные методы - классифицированные для вашего аналитического удовольствия.
1. Методы фильтра - вышибалы данных
Методы фильтра оценивают особенностидолюбая модель задействована. Они быстрые, модель-агрессивные, иУдивительно осуждающий!
Коэффициент корреляции: Если две особенности являются лучшими друзьями (то есть, очень коррелированы), мы вежливо просим уйти.Избыточность не приглашена на эту партиюПолем
Хи-квадратный тест: Классика из мира статистики - идеально подходит для категориальных функций. Он проверяет, есть ли вашфункции и целевая переменная являются статистически совместимымиПолем
Взаимная информация: Это количественно определяетколичество сюрпризовОдна переменная предоставляет о другой. Если функция сообщает вашей модели что -то полезное - она остается.
Профессиональный совет: Методы фильтра идеально подходят для разведки на ранней стадии, особенно когда вы смотрите на набор данных с большим количеством столбцов, чем должен разрешить электронная таблица.
2. Методы обертки - стилисты функций
Эти методы рассматривают выбор функций как полномасштабную проблему поиска. Они оценивают подмножества функций, фактически обучающие модели и выбирая комбинации, которые работают лучше всего.
Вперед выбор: Начни с ничего. Добавьте одну функцию за раз. Держите те, которые заставляют вашу модель улыбнуться.
Обратное устранение: Начните со всего. Удалите наименее полезную функцию неоднократно - подход Мари Кондо к данным.
Рекурсивное устранение признаков (RFE): Как интенсивная игра музыкальных стульев. Он тренирует модель, выбивает самые слабые особенности и повторяется, пока не останется только лучшие претенденты.
Вы знали?В то время как методы обертки часто являются точными, они также являются вычислительно дорогими. Так что принесите закуски и ресурсы для себя и своего компьютера.
3. Встроенные методы - Чупочники функций
Встроенные методы включают выбор функций в сам процесс обучения модели. Они умные, эффективные и немного самоуверенные.
Регрессия Лассо (регуляризация L1): Думайте об этом как «нулевая толерантностьВыбор функции. Он сжимает некоторые коэффициенты вплоть до нуля, эффективно удаляя их.
Регрессия хребта (регуляризация L2): Более мягкий брат - он не устраняет особенности, но уменьшает их влияние. Очень демократически!
Методы на основе деревьев: Алгоритмы, какСлучайные лесаиЛишние деревьяПредложить встроенные оценки важности. Они решают, кто говорит, а кто может сидеть тихо сзади (что я бы всегда использовал, чтобы взвесить свою функцию для цели).
🎓 Урок: Встроенные методы часто предлагают лучшее из обоих миров эффективно и точное, и они встроены во многие популярные алгоритмы.
Восстание автоматизированной инженерии функций
Теперь давайте рассмотрим слона в серверной комнате -автоматизацияПолем Да, инженерия функций теперь может быть автоматизирована. Нет, это не займет вашу работу (пока).
Автоматизированная инженерия функцийИспользует алгоритмы для генерации и выбора функций с минимальным вмешательством человека.
Инструменты, которые вы должны знать:
- FeatureTools: Новаторский синтез глубоких признаков.
- Tpot: Использует генетическое программирование для оптимизации трубопроводов.
- H2O.ai: Предлагает ИИ без водителя - тяжелый при автоматизации, свет на головных болях.
- Auto-Sklearn: Футуристический двоюродный брат Scikit-Learn.
Практические советы для начинающих инженеров функций
В заключение…
Инженерная инженерия - это не просто технический шаг - этоТворческий процессПолем Именно здесь ваше понимание данных соответствует математическому механизму машинного обучения.
Мы исследовали ландшафт - от методов фильтра до оберток, от лассо до деревьев, от условий взаимодействия ручной работы до полностью автоматизированных систем. В то время как инструменты развиваются и модели становятся умнее,Ваше понимание как ученого данных остается незаменимымПолем
Следующее издание тизер:В моем следующем выпуске мы рассмотрим таинственный мирСокращение размерности- Что это такое, когда использовать его, и почему PCA может стать вашим новым лучшим другом.
Теплые пожелания,
Спасибо, что прочитали мой пост.Подписаться бесплатноЧтобы получить новые сообщения и поддержать мою работу.
Оригинал