目标提供一个商品采购单价预测模型,因客户提到采购成本的高低主要会依据采购人员的工作经验而有差异,此预测模型希望能提供采购人员具参考价值的采购价格预测,以降低实际购入成本与应购入成本的价差并提供经验较少的采购人员有价格参考标准。
ETL
1. 数据整理
► 美元进货的数据暂时移除,因不同汇率转换对原有数据预测会有差异。
► 字段拆解:原数据经纬纱支字段有多维交叉关系(例如:150D/50D是否有包线,包线与被包线的纱织数与材质 > 将字段做多向拆解且建立多组组合来回验证,以达到描述性、探索性、验证性数据的分离,以利后续找出对模型有解释力的参数。
► 数据型态转换:类别变量数值化(品牌、布料种类、颜色)。
► 数据正规化、标准化
2. 建模:复回归分析
► 参数选择(逐步特征选取:向前、向后、全部)
ANOVA 变异数分析当新样本数据进来时,平均值不会有明显差异的假设,我们选择显著的模型,因此踢除forward.lm选项,接着依据AIC分析模型过度拟合的情形,数值越大代表模型越拟合,因此我们选择AIC数值较小的backward.lm回归模型
AIC (字段解释力):
参数相关性系数比较图
因此我们根据backward.lm建议选取参数,经过多次来回调整参数和选择特征项后,模型预估的误差和机率分布
将预处理数据上传到AWS 经过正规化和标准化后,使用AWS提供具有产业水平的预测模型,得到以下结果:
模型优化方案
► 增加数据笔数
► 增加数据时间跨度:多年度和季度的历史采购数据,并加入原料的浮动价格能增加数据维度和参数选择的丰富性,以利预测模型准度
► 产业背景知识解读:加强产业知识,加强对自变量参数调教能力以优化模型
► 考虑外部参数:加入对组成成分有影响的原物料价格
总结:
此项目中,影响预测模型结果其中最主要引响因素是整理数据的方式