大数据分析与挖掘综合能力提升实战-傅一航培训课程-名师网

《大数据分析与挖掘综合能力提升实战》

2019-06-05
608

所属领域：市场营销 > 大数据营销
适合行业：银行证券行业航空客运行业教育培训行业通信行业其他
课程背景：本系列课程从实际的业务需求出发，结合行业的典型应用特点，围绕实际的商业问题，对数据分析及数据挖掘技术进行了全面的介绍（从数据收集与处理，到数据分析与挖掘，再到数据可视化和报告撰写），通过大量的操作演练，帮助学员掌握数据分析和数据挖掘的思路、方法、表达、工具，从大量的企业经营数据中进行分析，挖掘客户行为特点，帮助运营团队深入理解业务运作，以达到提升学员的数据综合分析能力，支撑运营决策的目的。通过本课程的学习，达到如下目的： 1、了解数据挖掘基础知识，以及数据挖掘标准过程。 2、掌握建模前的影响因素分析，学会寻找影响业务的关键因素。 3、熟练使用数值预测模型，掌握回归预测模型，学会解读模型中业务规律。 4、学会自定义回归模型，能够对回归模型进行优化，并找到最优的回归模型。熟练掌握预处理的基本过程，并根据业务实际情况进行处理
课程目标：本课程为大数据分析中级课程，需要在初级课程之后学习。面向所有应用型人员，包括业务部分，以及数据分析部门，系统开发人员也同样需要学习。本课程核心内容为数据挖掘，预测模型，以及模型优化，帮助学员构建系统全面的业务分析思维，提升学员的数据分析综合能力。本课程覆盖了如下内容： 1、数据挖掘基础知识。 2、常用数值预测模型。 3、常用时序预测模型。 4、数据预处理的基本过程。
课程时长：一天
适合对象：业务支撑部、运营分析部、数据分析部、大数据系统开发部等对业务数据分析有较高要求的相关人员。

内容：

数据挖掘基础

数据挖掘概述

数据挖掘的标准流程（CRISP-DM）

商业理解

数据准备

数据理解

模型建立

模型评估

模型应用

案例：客户流失预测及客户挽留

数据集概述

变量的类型

存储类型

度量类型

角色

SPSS工具介绍

数据挖掘常用模型

影响因素分析篇

问题：如何判断一个因素对另一个因素有影响？比如：价格是否会影响产品销量？产品的陈列位置是否会影响销量？学历是否与客户流失有关系？影响风险的关键因素有哪些？

影响因素分析的常见方法

相关分析（衡量两数据型变量的线性相关性）

问题：这两个属性是否会相互影响？影响程度大吗？

相关性分析方法总结

回归预测模型篇

问题：如何预测产品的销量/销售金额？

常用预测模型

数值预测：回归预测/时序预测

分类预测：逻辑回归、决策树、神经网络、…

回归分析/回归预测

问题：如何预测未来的销售量（定量分析）？

回归分析简介

回归分析的种类（一元/多元、线性/曲线）

得到回归方程的常用工具

散点图+趋势线

线性回归工具

规划求解工具

演练：散点图找营销费用与销售额的关系（一元回归）

线性回归分析的五个步骤

演练：营销费用、办公费用与销售额的关系（线性回归）

解读线性回归分析结果的技巧

定性描述：正相关/负相关

定量描述：自变量变化导致因变量的变化程度

回归预测模型质量

评估指标：判定系数R^2、

如何选择最佳回归模型

演练：如何选择最佳的回归预测模型（一元曲线回归）

预测值准确性评估

MAD、MSE/RMSE、MAPE等

演练：如何选择最佳的回归预测模型（一元曲线回归）

带分类变量的回归预测

演练：汽车季度销量预测

演练：工龄、性别与终端销量的关系

演练：如何评估销售目标与资源配置（营业厅）

自动筛选不显著因素（自变量）

回归模型优化篇

回归分析的基本原理

三个基本概念：总变差、回归变差、剩余变差

方程的显著性检验：是否可以做回归分析？

因素的显著性检验：自变量是否可用？

拟合优度检验：回归模型的质量评估？

理解标准误差的含义：预测的准确性？

模型优化思路：寻找最佳回归拟合线

如何处理预测离群值（剔除离群值）

如何剔除不显著因素（剔除不显著因素）

如何进行非线性关系检验（增加非线性自变量）

如何进行相互作用检验（增加相互作用自变量）

如何进行多重共线性检验（剔除共线性自变量）

如何检验误差项（修改因变量）

如何判断模型过拟合（模型过拟合判断）

演练：模型优化案例

规划求解工具简介（自定义回归模型的工具）

自定义模型（如何利用规划求解进行自定义模型）

案例：如何对餐厅客流量进行建模及模型优化

好模型都是优化出来的

时序预测模型篇

问题：类似于GDP这种无法找到或找全影响因素，无法进行回归建模，怎么办？

时间序列简介

时间序列常用模型

评估预测值的准确度指标

平均绝对误差MAD

均方差MSE/RMSE

平均误差率MAPE

移动平均（MA）

应用场景及原理

移动平均种类

一次移动平均

二次移动平均

加权移动平均

移动平均比率法

移动平均关键问题

期数N的最佳选择方法

最优权重系数的选取方法

演练：平板电脑销量预测及评估

演练：快销产品季节销量预测及评估

指数平滑（ES）

应用场景及原理

最优平滑系数的选取原则

指数平滑种类

一次指数平滑

二次指数平滑（Brown线性、Holt线性、Holt指数、阻尼线性、阻尼指数）

三次指数平滑

演练：煤炭产量预测

演练：航空旅客量预测及评估

温特斯季节预测模型

适用场景及原理

Holt-Winters加法模型

Holt-Winters乘法模型

演练：汽车销量预测及评估

回归季节预测模型

回归季节模型的参数

基于时期t的相加模型

基于时期t的相乘模型

怎样解读模型的含义

案例：美国航空旅客里程的季节性趋势分析

ARIMA模型

适用场景及原理

ARIMA操作

演练：上海证券交易所综合指数收益率序列分析

演练：服装销售数据季节性趋势预测分析

新产品销量预测模型

新产品累计销量的S曲线

如何评估销量增长的拐点及销量上限

珀尔曲线与龚铂兹曲线

演练：预测IPad产品的销量

演练：预测Facebook的用户增长情况

数据预处理篇（了解你的数据集）

数据预处理的主要任务

数据集成：多个数据集的合并

数据清理：异常值的处理

数据处理：数据筛选、数据精简、数据平衡

变量处理：变量变换、变量派生、变量精简

数据归约：实现降维，避免维灾难

数据集成

外部数据读入：Txt/Excel/SPSS/Database

数据追加（添加数据）

变量合并（添加变量）

数据理解（异常数据处理）

取值范围限定

重复值处理

无效值/错误值处理

缺失值处理

离群值/极端值处理

数据质量评估

数据准备：数据处理

数据筛选：数据抽样/选择（减少样本数量）

数据精简：数据分段/离散化（减少变量的取值个数）

数据平衡：正反样本比例均衡

数据准备：变量处理

变量变换：原变量取值更新，比如标准化

变量派生：根据旧变量生成新的变量

变量精简：降维，减少变量个数

数据降维

常用降维的方法

如何确定变量个数

特征选择：选择重要变量，剔除不重要的变量

从变量本身考虑

从输入变量与目标变量的相关性考虑

对输入变量进行合并

因子分析（主成分分析）

因子分析的原理

因子个数如何选择

如何解读因子含义

案例：提取影响电信客户流失的主成分分析

数据探索性分析

常用统计指标分析

单变量：数值变量/分类变量

双变量：交叉分析/相关性分析

多变量：特征选择、因子分析

演练：描述性分析（频数、描述、探索、分类汇总）

数据可视化

数据可视化：柱状图、条形图、饼图、折线图、箱图、散点图等

图形的表达及适用场景

演练：各种图形绘制

结束：课程总结与问题答疑。

标签：市场营销、大数据营销

没有更多内容了