600字范文 > python数据与挖掘实战学习：实战篇第七章航空公司客户价值分析笔记

python数据与挖掘实战学习：实战篇第七章航空公司客户价值分析笔记

时间：2021-06-20 08:57:17

第七章航空公司客户价值分析

7.1 背景与挖掘目标

信息时代的来临使得企业营销焦点从产品中心转变为客户中心，客户关系管理成为企业的核心问题。通过客户分类，区分无价值客户、高价值客户，企业针对不同价值的客户制定优化的个性化服务方案，采取不同营销策略，将有限营销资源集中于高价值客户，实现企业利润最大化目标。

通过建立合理的客户价值评估模型，对客户进行分群，分析比较不同客户群的客户价值，并制定相应的营销策略，对不同客户群提供个性化的客户服务是必须和有效的。

挖掘目标：

1）借助航空公司客户数据，对客户进行分类；

2）对不同的客户类别进行特征分析，比较不同类客户的客户价值；

3）对不同价值的客户类别提供个性化服务，制定相应的营销策略。

7.2 分析方法与过程

识别客户价值应用最广泛的模型是通过3个指标（最近消费时间间隔（Recency）、消费频率（Frequency），消费金额（Monetary））来进行客户细分，识别出高价值的客户，简称RFM模型。

在RFM模型中，消费金额表示一段时间内，客户购买该企业产品金额的总和。由运输距离、舱位等级等对航空票价的影响，这个指标不适用于航空公司的客户价值分析。因此选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均值C两个指标代替消费金额。考虑航空公司会员入会时间的长短在一定程度上能够影响客户价值，所以模型中增加客户关系长度L，作为区分客户的另一指标。

因此本案例的客户价值标航空公司LRFMC模型如下：

1）L：会员入会时间距观测窗口结束的月数

2）R：客户最近一次乘坐公司飞机距观测窗口结束的月数

3）F：客户在观测窗口内乘坐公司飞机的次数

4）M：客户在观测窗口内累计的飞行里程

5）C：客户在观测窗口内乘坐舱位所对应的折扣系数的平均值

若采用传统RFM模型分析的属性分箱方法，该方法是依据属性的平均值进行划分，其中大于平均值的表示为↑，小于平均值的表示↓。但由于本案例有五个指标，导致细分的客户群太多，提高了针对性营销的成本，因此采用聚类的方法识别客户聚类。通过对航空公司客户价值的LRFMC模型的五个指标进行K-Means聚类，识别出最有价值客户。

数据挖掘步骤：

1）从航空公司的数据源中进行选择性抽取与新增数据抽取分别形成历史数据和增量数据。

2）对步骤1）中形成的两个数据集进行数据探索分析与预处理，包括数据缺失值与异常值的探索分析，数据的属性规约、清洗和变换。

3）利用步骤2）中形成的已完成数据预处理的建模数据，基于旅客价值LRFMC模型进行客户分群，对各个客户群进行特征分析，识别出有价值的客户。

4）针对模型结果得到不同价值的客户，采用不同的营销手段，提供定制化的服务。

7.2.1 数据抽取

以-03-31为结束时间，选取宽度为两年的时间段作为分析观测窗口，抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据。对于后续新增的客户详细信息，以后续新增数据中最新的时间点作为结束时间，采用上述同样的方法进行抽取，形成增量数据。

7.2.2 数据探索分析

首先对数据进行缺失值分析与异常值。

import pandas as pddatafile = './demo/data/air_data.csv'resultfile = './demo/tmp/explore.xlsx'data = pd.read_csv(datafile, encoding='utf-8') # 读取原始数据，指定UTF-8编码explore = data.describe(percentiles=[], include='all').T# 包括对数据的基本描述，percentiles参数是指定计算多少的分为数表；T是转置，转置后更方便查阅# print(explore)explore['null'] = len(data)-explore['count'] # describe函数自动计算非空值数，需要手动计算空值数explore = explore[['null', 'max', 'min']]explore.columns = ['空值数', '最大值', '最小值'] # 表头重命名'''describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值)'''explore.to_excel(resultfile) # 导出结果

对数据观察发现原始数据中存在票价为空值，票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成，其他的数据可能是客户乘坐0折机票或者积分兑换产生的。

7.2.3 数据预处理

本案例主要采用数据清洗、属性规约与数据变换的预处理方法。

1.数据清洗

由于原始数据量大，缺失值数据所占比例较小，对于问题影响不大，因此对其进行丢弃处理：

1）丢弃票价为空的记录。

2）丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录。（坐过该公司的飞机，且票价为0但折扣率不为0的异常值）

import pandas as pddatafile = './demo/data/air_data.csv'cleanedfile = './demo/tmp/data_cleaned.csv'data = pd.read_csv(datafile, encoding='utf-8') # 读取原始数据，指定UTF-8编码data = data[data['SUM_YR_1'].notnull()*data['SUM_YR_2'].notnull()] # 票价非空值才保留，SUM_YR是观测窗口的票价收入# 只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录index1 = data['SUM_YR_1'] != 0index2 = data['SUM_YR_2'] != 0index3 = (data['SEG_KM_SUM'] == 0) & (data['avg_discount'] == 0) # SEG_KM_SUM是观测窗口的总飞行公里数，avg_discount是平均折扣率data = data[index1 | index2 | index3]data.to_csv(cleanedfile)

2.属性规约

原始数据中属性太多，根据航空公司客户价值LRFMC模型，选择与LRFMC指标相关的6个属性：FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。

# 属性规约selectedfile = './demo/tmp/data_selected.csv'data = data[['LOAD_TIME', 'FFP_DATE', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']] # 选取指标相关数据data.to_csv(selectedfile)

3.数据变换

本案例主要采用属性构造和数据标准化。通过原始数据提取LRFMC五个指标。

（1）L = LOAD_TIME - FFP_DATE

会员入会时间距观测窗口结束的月数=观察窗口的结束时间-入会时间[单位：月]

（2）R = LAST_TO_END

客户最近一次乘坐公司飞机距观测窗口结束的月数=最后一次乘机时间至观察窗口末端时长[单位：月]

（3）F = FLIGHT_COUNT

客户在观察窗口内乘坐公司飞机的次数=观测窗口的飞行次数[单位：次]

（4）M = SEG_KM_SUM

客户在观测时间内在公司累计的飞行里程=观测窗口的总飞行公里数[单位：公里]

（5）C = AVG_DISCOUNT

客户在观测时间内乘坐舱位所对应的折扣系数的平均值=平均折扣率[单位：无]

import numpy as np# 属性构造changedfile = './demo/tmp/data_changed.csv'lt = pd.to_datetime(data['LOAD_TIME']) # 将LOAD_TIME转为日期属性fpd = pd.to_datetime(data['FFP_DATE']) # 将FFP_DATE转为日期属性data['LOAD_TIME'] = lt - fpd # 得到日期偏移量data['LOAD_TIME'] = data['LOAD_TIME'].map(lambda x: x/np.timedelta64(1,'M')) # 计算L，转换为月份精度del(data['FFP_DATE']) # 删除FFP_DATE列data.columns = ['L', 'R', 'F', 'M', 'C'] # 表头重命名# print(data)data.to_csv(changedfile， index=False)explore = data.describe(percentiles=[], include='all')explore = explore.loc[['min', 'max']]explore.index = ['最小值', '最大值'] # 表头重命名print(explore)

从表中数据发现，5个指标的取值范围数据差异较大，为了消除数量级数据带来的影响，需要对数据进行标准化处理。

import pandas as pddatafile = './demo/tmp/data_changed.csv' # 需要进行标准化的数据文件zscoredfile = './demo/tmp/zscored_data.xlsx' # 标准差化后的数据存储路径文件# 标准化处理data = pd.read_csv(datafile)data = (data - data.mean(axis=0))/(data.std(axis=0)) # 标准化变换data.columns = ['Z'+i for i in data.columns] # 表头重命名print(data)data.to_excel(zscoredfile, index=False)

标准化后的部分数据：

7.2.4 模型构建

客户价值分析模型构建主要又两部分构成，第一个部分根据航空公司客户5个指标的数据，对客户进行聚类分群。第二个部分结合业务对每个客户群进行特征分析，分析其客户价值，并对每个客户群进行排名。

1.客户聚类

采用K-Means聚类算法对客户数据进行客户分群，聚成5类（需要结合业务的理解与分析来确定客户的类别数量）

# 读取数据并进行聚类分析outputfile = './demo/tmp/cluster_result.xlsx'data = pd.read_excel(inputfile) # 读取数据# 调用K-Means算法，进行聚类分析kmodel = KMeans(n_clusters=k)kmodel.fit(data) # 训练模型# 储存结果cc = pd.DataFrame(kmodel.cluster_centers_, columns=['ZL','ZR','ZF','ZM','ZC'], index=['客户群1', '客户群2','客户群3', '客户群4', '客户群5']) # 查看聚类中心# print(cc)labels = kmodel.labels_ # 查看各样本对应的类别# print(labels)# print(pd.Series(kmodel.labels_).value_counts().sort_index())labels = pd.Series(labels).value_counts().sort_index()# print(labels)df = pd.DataFrame(labels) # 创建df对象保存结果df.columns = ['聚类个数']df.index = ['客户群1', '客户群2', '客户群3', '客户群4', '客户群5']df = pd.concat([df, cc], axis=1) # 按列标签合并两个表格# print(df)df.to_excel(outputfile)

2.客户价值分析

对聚类结果画雷达图

#画出特征雷达图，代码接KMeans_cluster.pyimport numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplmpl.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong'] # 汉字字体,优先使用楷体，如果找不到楷体，则使用黑体mpl.rcParams['font.size'] = 12 # 字体大小mpl.rcParams['axes.unicode_minus'] = False # 正常显示负号labels = data.columns #标签print(labels)k = 5 #数据个数plot_data = kmodel.cluster_centers_print(plot_data)color = ['b', 'g', 'r', 'c', 'y'] #指定颜色angles = np.linspace(0, 2*np.pi, k, endpoint=False)plot_data = np.concatenate((plot_data, plot_data[:,[0]]), axis=1) # 闭合angles = np.concatenate((angles, [angles[0]])) # 闭合# print(angles)fig = plt.figure()ax = fig.add_subplot(111, polar=True) #polar参数！！for i in range(len(plot_data)):ax.plot(angles, plot_data[i], 'o-', color = color[i], label = '客户群'+str(i+1), linewidth=2)# 画线ax.set_rgrids(np.arange(0.01, 4.0, 0.5), np.arange(-1, 3.0, 0.5), fontproperties="SimHei")ax.set_thetagrids(angles[0:5] * 180/np.pi, labels, fontproperties="SimHei")plt.legend(loc = 4)plt.show()