• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

探索特征衍生:提高建模效果的秘诀

出处: mp.weixin.qq.com 作者: 吕盛泽

特征衍生主要指的是通过既有数据进行新特征的创建。总体来说,特征衍生有两类方法,其一是通过深入的数据背景和业务背景分析,进行人工字段合成,这种方法创建的字段往往具有较强的业务背景与可解释性,同时也会更加精准、有效的提升模型效果,但缺点是效率较慢,需要人工进行分析和筛选,称为手工特征衍生。其二则是抛开业务背景,直接通过一些简单暴力的工程化手段批量创建特征,然后从海量特征池中挑选有用的特征带入进行建模,这种方法简单高效,但存在衍生字段过多,有效特征没有衍生的问题,称为批量特征衍生。 特征衍生的相关方法更像是人们在长期实践过程中总结出来的方法论,这些方法切实有效,但没有一套能够完整统一的理论体系来“框住”这些方法。此外由于模型场景的复杂多变,特征衍生需要结合综合数据体量、数据规律、现有算力等因素进行考虑,所以这边主要介绍特征衍生的一些方法。

查看原文 46 技术 lddgo 分享于 2024-03-14