机器学习
(注:博客属个人复习笔记,不会介绍基础概念,仅记录个人遗忘的部分知识点)
机器学习 概述
- “机器学习是对能通过经验自动改进的计算机算法的研究”
- “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”
- 机器学习和深度学习的最大区别在神经网络,深度学习使用神经网络去提取事物的深层或者说是隐性的一些特征
常见的模型指标
- 正确率 —— 提取出的正确信息条数 / 提取出的信息条数
- 召回率 —— 提取出的正确信息条数 / 样本中的信息条数
- F 值 —— 正确率 * 召回率 * 2 / (正确率 + 召回率)(F值即为正确率和召回率的调和平均值)
特征工程
- 特征选择-也叫特征子集选择(FSS,Feature Subset Selection)。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集纬度的过程,是提高算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
- 特征提取-特征提取是计算机视觉和图像处理中的一个概念。它指的是计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是吧图像上的点分为不同的子集,这些子集往往属于孤立的点,连续的曲线或者连续的区域。
- 特征使用方案
- 要实现我们的目标需要那些数据?基于业务理解,尽可能找出对因变量有影响的所有自变量
- 可用性评估
- 获取难度
- 覆盖率
- 准确率
- 特征获取方案
- 如何获取这些特征
- 如何存储
- 特征处理
- 特征清晰
- 清洗异常样本
- 采样
- 数据不均衡
- 样本权重
- 预处理
- 单个特征
- 归一化
- 离散化
- dummy coding
- 缺失值
- 数据变换
- log
- 指数
- box-cox
- 多个特征
- 降维
- PCA
- LDA
- 特征选择
- filter
- 思路:自变量和目标变量之间的关联
- 相关系数
- 卡方检验
- 信息增益,互信息
- wrapper
- 思路:通过目标函数来决定是否加入一个变量
- 迭代:产生特征子集,评价
- 完全搜索
- 启发式搜索
- 随机搜索
- GA
- SA
- Embedding
- 思路:学习起自身自动选择特征
- 正则化
- L1:Lasso
- L2:Ridge
- 决策树-熵信息增益
- 省都学习
- filter
- 降维
- 衍生变量
- 对原始数据加工,生成有商业意义的变量
- 单个特征
- 特征清晰
- 特征监控
- 特征有效性分析-特征重要性,权重
- 特征监控-监控重要特征-防止特征质量下降,影响模型效果
监督学习
- 有标签
KNN
线性回归
朴素贝叶斯算法
局部加权线性回归
支持向量机
Ridge回归
决策树
最小回归系数估计
无监督学习
- 无标签
K-均值
最大期望算法
马尔可夫决策过程
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 廾匸!