1200字范文 > python与tableau结合_Python与Tableau相结合万字长文搞定传统线下连锁店数据分析...

python与tableau结合_Python与Tableau相结合万字长文搞定传统线下连锁店数据分析...

时间：2019-03-07 02:06:19

这是kaggle上的一份巴西传统线下汽车服务类连锁店的实际销售数据，大小约3.43G，包含了从3月31日到4月1日大约2600万多的销售数据。

分析该数据集可以探究该连锁店的销售情况，产品的分布，可以对客户进行细分，精细化销售，对员工的生产力进行分析。

这里是利用Python结合Tableau来进行分析，可视化用的Tableau，部分分析用的Python。

数据解读：

2 分析框架

3 数据清洗

3.1 读取数据，看看总体情况

这里的数据集比较大，Anaconda加载的数据都暂时存在内存里，笔者刚开始用的8G内存，一下子就满了，这里建议8-12G的内存左右，或者关闭一些暂时不用先的软件。

#导入相关包

importnumpyasnp

importpandasaspd

#读取数据，设置分割符号

file_path=r'F:\alesReport.csv\SalesReport.csv'

df=pd.read_csv(file_path,iterator=True,sep=';')

data=df.get_chunk(30000000)

data.info()

输出：

这里的销售时间是object类型，要转换成datetime类型，先记录下。#查看NULL的数据：

data.isnull().sum()

输出：

这里的数据比较干净，都没有NULL值这些。

查看数据的标准差，最大，最下值这些：

data.describe()

输出：

这里的数据量比较多，数据相对比较大，这里很明显可以看出的Product Cost这里有个负数，查看这些数据：data[data['ProductCost']<=0]

输出：

len(data[data['ProductCost']

输出：

这里按照字面的意思理解是每销售出一个该产品的成本，这里为负数，暂且这里当异常数据去处理，这里的数据量也不多，只有20条，直接删除处理。实际，得和业务进行沟通，查看该指标的具体意思，和该负数情况的发生是出于什么情况来进行分析。

删除这些数据：data.drop(index=data[data['ProductCost']

3.2 删除重复的数据

#数据清洗，这里有489567条数据是重复的，删除这些数据

data[data.duplicated()]

输出：#删除重复的数据

#这里的重复的数据是完全重复的，所有的值都是相同的，

#这里只能判断为异常数据，直接删除掉

data.drop(index=data[data.duplicated()].index,inplace=True)

3.3 日期转换格式

data['SaleDateTime']=pd.to_datetime(data['SaleDateTime'])

data.info()

输出：

至此，数据清洗完毕，可以进行分析。

4 分析

4.1 总体情况

4.2 时间角度

4.2.1 年销售额情况

只有前9个月的销售额，只有前4个月的销售额。

总销售额达到718306933，环比的680191151，增长5.6%。

4.2.2 季度的销售额情况

第二季度开始到底订单量成直线式上涨，较平稳。

该连锁店出于疯狂生长期，订单量、销售额均呈现直线上升趋势。

第四季度订单量：208548，销售额达到206513981，订单量、销售金额均达到历史峰值。

4.2.3 月的销售情况

各月份的销售金额，呈上涨趋势，其中下半年上涨趋势较明显，18、呈现较稳定的状态；结合各月份，连锁店的数量。

可以得出结论：下半年连锁店数量的增加带动销售金额明显的上涨。

结合、对比，该连锁店的销售额不受季节的影响，12月为了冲业绩，销售额会上涨一些。

4.2.4 周的销售情况

周的销售金额总体上先呈现上升，然后趋向于较稳定的状态。

周的订单量处于动态的平衡当中，可以看出随着时间的增长，每张订单的购买金额逐渐增加。

4.2.5 日的销售情况

总体来说，这里只有6月1日左右时间段的销售金额有异常，这段时间既有极大值，也有极小值。具体原因可以深入查明一下。

这里的日销售额呈现周期性规律，也就是有6天销售额处于较高的，有一天的销售额是处于最低的，结合工作日权重，可以看出，巴西人民再周日的购买欲望较低，或者该商圈处于写字楼附近。

4.2.6 近四年的日UV

纵向对比每年的日UV，都有上升的趋势。

横向对比当年的日UV，呈现周期性的规律，这里按7天为一周期，前后一天都是最低的，中间五天相对来说较高。

4.2.7 工作日的销售情况

周日的销售金额最少。

4.2.7 工作日的订单量

4.2.8 时间段的销售金额、订单量

该商城销售额、订单量在7-20点这个时间段较高，12点有个谷底。

4.2.9 工作日的销售权重

这里只挑选了全年的数据来进行统计。

在Tableau里实现：

导出数据到Excel里计算。

计算公式方式：全年周日的平均值=全年的周日的总销售额/全年周日的天数，其他工作日类推。

挑选1中计算到的最小值

权重=某个工作日的平均值 / 2中选出的最小值

这里的权重越大，表明当日的销售额越多。

可视化：

这里可得出的结论：周五的销售权重最大，周日的销售权重最小。

4.2.10 销售预测按日

这里只挑选1月1日到2月29的数据，其中2月份的数据用来做预测和对比。#将销售时间设置成索引

data.set_index('SaleDateTime',inplace=True,drop=True)

#将数据重新整理成以天来统计每天销售额的汇总

day_data=data.resample('d').sum()['Total']

day_data

输出：

#挑选1月1日到2月29的数据

train_day_data=day_data[day_data.index>='-01-01']

train_day_data=train_day_data[train_day_data.index<='-02-29']

#保存数据到Excel

train_day_data.to_excel('./日销售数据.xlsx')#读取数据

data=pd.read_excel('./日销售数据.xlsx')

#重新命名列

data.rename(columns={'SaleDateTime':'date1'},inplace=True)

data

输出：

#将销售额进行缩放，预测的只是大概的值，不可能太精确，这里直接根据数据的情况，以10万作为基本的单位。

data['Total']=round(data['Total']/100000,4)

进行平稳性检验importmatplotlib.pyplotasplt

plt.rcParams['font.sans-serif']='SimHei'

plt.rcParams['axes.unicode_minus']=False

%matplotlibinline

#时序图

plt.figure(figsize=(18,8),dpi=256)

data['Total'][:-30].plot()

输出：

#自相关图

fromstatsmodels.graphics.tsaplotsimportplot_acf

plot_acf(data['Total'][:-30])

plt.figure(figsize=(18,8),dpi=256)

输出：#偏自相关图

fromstatsmodels.graphics.tsaplotsimportplot_pacf

plot_pacf(data['Total'][:-30])

plt.figure(figsize=(18,8),dpi=256)

输出：

#单位跟检验

fromstatsmodels.tsa.stattoolsimportadfullerasADF

print(ADF(data['Total'][:-30]))

输出：

这里的p值等于0.347多，大于0.05，属于不平稳序列，需要进行差分后，再检验是否属于平稳序列。#一阶差分

D_data=data['Total'][:-30].diff().dropna()

print('一阶段差分检验结果：',ADF(D_data))

输出：

一阶差分后的序列，属于平稳序列，这里可以使用差分后平稳序列的模型ARIMA进行预测，预测前还得进行白噪声检验。

fromstatsmodels.stats.diagnosticimportacorr_ljungbox

print('白噪声检验结果：',acorr_ljungbox(D_data,lags=1))

输出：

白噪声检验的p值远小于0.05，一阶差分后的时间序列属于平稳非白噪声的时间序列，下面可以利用ARIMA模型进行预测。fromstatsmodels.tsa.arima_modelimportARIMA

fromdatetimeimportdatetime

fromitertoolsimportproduct

#设置p阶，q阶范围

#productp,q的所有组合

#设置最好的aic为无穷大

#对范围内的p,q阶进行模型训练，得到最优模型

ps=range(0,5)

qs=range(0,5)

parameters=product(ps,qs)

parameters_list=list(parameters)

best_aic=float('inf')

results=[]

forparaminparameters_list:

try:

model=ARIMA(data['Total'][:-30],order=(param[0],1,param[1])).fit()

exceptValueError:

print('参数错误：',param)

continue

aic=model.aic

ifaic

best_model=model

best_aic=model.aic

best_param=param

results.append([param,model.aic])

results_table=pd.DataFrame(results)

results_table.columns=['parameters','aic']

print('最优模型',best_model.summary())

输出：

利用最好的模型进行预测。

best_model.forecast(30)[0]

模型评价：fromsklearn.metricsimportmean_absolute_error

#pred_y预测值

#test_y实际值

pred_y=best_model.forecast(30)[0]

test_y=data['Total'][-30:].values

mean_absolute_error(test_y,pred_y)

输出：

这里的平均绝对误差为2.38，这里要根据实际的业务确定误差阈值。再来进行模型的评价。小于阈值的，模型就是稍微好的，大于阈值的，说明模型的准确率还有待提高，模型还需重新训练等。

画折线图，对比下实际和预测值之间的差距。

plt.figure(figsize=(14,7),dpi=256)

plt.plot(data['date1'][-30:],test_y,label='实际')

plt.plot(data['date1'][-30:],pred_y,label='预测')

plt.xticks(data['date1'][-30:],rotation=70)

plt.legend(loc=3)

输出：

这里可以看出，模型预测的结果还是稍微好点的。

4.3 用户角度

4.3.1 用户城市分布

10.98%的用户集中在Agirrie这个城市，用户居住城市相对较分散。

4.3.2 用户购买金额，购买次数前10的用户

用户Barry Barrett总购买金额达到15M以上，消费次数也达到了100K以上，属于高价值的客户。

4.3.3 复购率

总体复购率：

这里是按这份数据所在的时间段，计算购买次数大于2次的用户，再除于总的用户数，这里得排除的一个数据是用户Client这里，有一个数据是Customer not informed(客户没有提供名字的情况)，这条数据得排除了，所以计算购买次数大于2的用户和总用户数对应减去1，这是个人的想法，实际是得和业务沟通，得到实际的计算方法。查看Customer not informed这条数据：#计算每个客户的购买次数，这里使用了nunique(),统计不同订单号的个数

client_data=data.groupby('Client').nunique()['OrderNumber']

#重命名列

client_data=client_data.reset_index().rename(columns={'OrderNumber':

'user_num'})

client_data.sort_values('user_num',ascending=False)

#总复购率

print('总复购率:',

round(

(len(client_data[client_data['user_num']>1])-1)/

(len(client_data)-1),4)*100,'%')

输出：

该数据所在的时间段的总体复购率达到了87.91%，用户黏性较高。

这里再细分下，看下一个月内的复购的情况。

一个月内复购率

这里的一个月内复购率的定义是：从月初的1号到月底这段时间内，用户复购的比率。#这里的销售时间是datetime格式，增加个辅助列，转换成-01这样的年月显示

defparse_year_month(x):

ifx.month>=10:

returnstr(x.year)+'-'+str(x.month)

else:

returnstr(x.year)+'-0'+str(x.month)

data['year_month']=data['SaleDateTime'].apply(parse_year_month)

统计每个月用户的购买次数

y_m_data=data.groupby(['year_month',

'Client']).nunique()['OrderNumber'].reset_index()

y_m_data

输出：

每个月的复购率#保存临时数据，用于构建每月的复购率的DataFrame

month_list=[]

rate_list=[]

#循环计算每个月的复购率，这里直接遍历每个月

forevery_miny_m_data['year_month'].unique():

#获取每个月用户的购买次数的数据

temp=y_m_data[y_m_data['year_month']==every_m]

# print(every_m, '复购率：',

#round((len(temp[temp['OrderNumber']>1])-1)/(len(temp)-1),4))

month_list.append(every_m)

#选出购买次数>1的数据，获取数据的长度(用户数)-1再除以

#当月的总用户数-1

rate_list.append(round((len(temp[temp['OrderNumber']>1])-1)/(len(temp)-1),4))

#将数据转换成DataFrame

t_1={'month':month_list,'rate':rate_list}

rate_data=pd.DataFrame(t_1)

rate_data

输出：

导出数据，用Excel做可视化：

rate_data.to_excel('./rate_data.xlsx',index=False)

月复购率都在66%以上，用户的黏性较大。

4.3.4 购买次数的情况

这里只挑选了4月这个月的购买次数来做分析，其他月份的可以类推。data_04=y_m_data[y_m_data['year_month']=='-04']

#重命名OrderNumber为购买次数buy_frequency

data_04.rename(columns={'OrderNumber':'buy_frequency'},inplace=True)

data_04

#设置数据的区间

bins=[0,1,2,5,10,50,100,100000]

per_frequency=pd.cut(data_04['buy_frequency'],bins)

per_frequency.value_counts()

per_frequency.value_counts().plot(kind='bar')

4.3.5 RFM模型分析用户的价值

这里只针对4月份的用户价值进行分类，其他可以类推。#按月份提取每个月用户的R、F、M值

RFM_data_all=data.groupby(['year_month',

'Client']).agg({'OrderNumber':'nunique',

'SaleDateTime':'max',

'Total':'sum'})

RFM_data_all.reset_index(inplace=True)

#保存一份数据，下次直接读取该数据集就可以，省时间

RFM_data_all.to_excel('RFM_data_all.xlsx',index=False)

#提取4月份的数据

RFM_data_04=RFM_data_all[RFM_data_all['year_month']=='-04']

RFM_data_04

输出：

#参考时间，这里随便设置里-05-0123:59:59，不让R值为0，这里的R以天作为单位

importdatetime

reference_time=datetime.datetime.strptime('-05-0123:59:59',

'%Y-%m-%d%H:%M:%S')

#构建R指标

RFM_data_04['R']=RFM_data_04['SaleDateTime'].apply(lambdax:(

reference_time-x).days)

#重新命名列

RFM_data_04.rename(columns={'OrderNumber':'F','Total':'M'},inplace=True)

#排序查看异常值

RFM_data_04.sort_values('M',ascending=False)

输出：

这里有个异常值，标记为客户没有提及姓名的，直接删除处理。RFM_data_04.drop(index=26015,inplace=True)

提取RFM指标

RFM_data=RFM_data_04[['R','F','M']]

数据规范化，进行聚类fromsklearn.preprocessingimportStandardScaler

fromsklearn.clusterimportKMeans

#数据规范化

ss=StandardScaler()

train=ss.fit_transform(RFM_data)

#模型进行训练，这里直接聚类成5类。

kmeans_model=KMeans(n_clusters=5)

kmeans_model.fit(train)

#查看聚类中心

test=pd.DataFrame(kmeans_model.cluster_centers_,columns=['R','F','M'])

test

输出：

分析：

分群0：R小，F小，M小，这类属于一般价值客户。分群1，R大，F小，M小，这类属于一般发展客户。分群2，R小，R大，M大，这类属于重点保持客户。分群3、4 这类，R小，F、M大，这类都属于高价值客户。

将分群的结果合并到RFM_data数据里看下原数据。

RFM_data['sk5_label']=kmeans_model.labels_

这里挑出分群3、4的数据来看看。RFM_data[RFM_data['sk5_label']==3]

输出：

分群3的用户的购买次数F在670-1300之间，消费金额M在7.7W-18W之间，且R小，属于高价值客户。

RFM_data[RFM_data['sk5_label']==4]

输出：

分群4的用户购买次数在210-280之间，购买金额在20W以上，这类是属于高价值客户。

Tableau实现的客户分群：

客单价=M/F。这里可以看出群集5的客单价最高，其次是群集3，最低的是群集4。

4.3.6 用户月留存率

这里统计用户月存留率是上个月与当前月都有购买的用户的数量/(除以)上个月的总用户数(去重)。类似流失率，这里不同的是都是上月流向下月的，不是1->2->3这样的流向，而是1->2， 2->3这样的流向。#提取每个月的用户(去重)

every_month_user=data.groupby(['year_month',

'Client']).nunique()['OrderNumber'].reset_index()

every_month_user

输出：

#获取每个月份的列表，循环遍历计算上个月与当前月的留存率

year_month=every_month_user['year_month'].unique()

#保存月留存率的列表

list_month_rate=[]

fori,monthinenumerate(year_month):

#计算上个月与当前月的留存率

ifi>=1:

#获取当前月的用户(上面groupby已去重)

this_month_client=every_month_user[every_month_user['year_month']==month]['Client']

#获取上个月的用户(上面groupby已去重)

previous_month_client=every_month_user[every_month_user['year_month']==year_month[i-1]]['Client']

#计算留存率，这里用的是上个月与当前月用户的交集个数/上个月的用户数(去重)

rate=round(len(set(this_month_client)&set(previous_month_client))

/len(previous_month_client),2)

#用列表保存数据，并构建DataFrame用户绘图

b=[month,rate]

list_month_rate.append(b)

#构建DataFrame

rate_data=pd.DataFrame(list_month_rate,columns=['year_month','rate'])

rate_data

输出：

可视化：

结论：

月的用户留存率达到74%以上，用户黏性高。

4.4 产品角度

4.4.1 销售额，订单量前10的销售产品

产品Special Gasoline、Gasoline汽油类的产品的销售金额、订单量位居前列；其次是Diesel Auto Clean这个清洁类的产品。

4.4.2 产品分类(聚类分析)

这里先获取每个月的产品的成本C，订单量F，销售总金额M，这里只挑选了4月一个月的产品数据来分析month_product_data=data.groupby(['year_month',

'Product']).agg({

'ProductCost':'mean',

'OrderNumber':'nunique',

'Total':'sum'

}).reset_index()

#重命名

month_product_data.rename(columns={'ProductCost':'C','OrderNumber':'F',

'Total':'M'},inplace=True)

#导出数据到Excel,结合Tableau一起分析下。

month_product_data.to_excel('./month_product_data.xlsx',index=False)

#选择4月的数据

#这里只取一个月的产品进行聚类

month_product_04=month_product_data[month_product_data['year_month']=='-04']

month_product_04

输出：

模型训练，进行聚类

#导入包

fromsklearn.preprocessingimportStandardScaler

fromsklearn.clusterimportDBSCAN

ss=StandardScaler()

#获取需要的数据

X=month_product_04[['C','F','M']]

#数据规范化

train_X=ss.fit_transform(X)

#设置聚类数4个

dbscan_model=DBSCAN(min_samples=4)

#模型训练

dbscan_model.fit(train_X)

#将聚类的结果合并到原数据集上。

month_product_04['labels']=dbscan_model.labels_

#查看聚类的分布情况

month_product_04['labels'].value_counts()

输出：

这里标记为-1的数据集都是异常的数据，查看下。

这里结合Tableau可视化看下。

这里可以看出模型标记出来为-1数据的分成两类。

A类(上图和下图截红框)：成本低，订单量多，购买金额多的，这类属于重点开发的产品。

B类：成本高，订单量少，购买金额少的，这类属于低价值的产品，应该砍掉。

Tableau排除上图截红框的一个教特殊的产品再进行产品的聚类。

这里的圆圈的大小表示成本C的大小。

针对群集1：

这里利用二分法为订单量F分为50以下，50以上。针对F为50以下的群集1，这类购买次数较少，总的销售金额也在5K以下，这类的产品，可以采取部分下架。针对F为50以上的产品，这类产品购买次数稍多，采取维持的状态。

针对群集2：

这里也利用二分法将其分为销售金额M在3500以上，和3500以下的。3500以下的这类的产品成本高，且销售额也在3500以下，购买次数也低于50，这类产品应该采取放弃策略。3500以上的则采取先保持策略，再下一阶段再继续深入观察，分析，做进一步的决策。

针对群集3：

这类产品的购买次数F在600以上，销售金额M也在6k以上，成本C也较小，这类产品采取继续扩大。

针对群集4：

成本C较小，购买次数F在200-600之间，销售金额在10K以上，这类产品属于重点保持的产品，该类产品应给与较大的重视，进一步发挥这类产品的价值。

4.4.3 产品销售额情况及总体的占比(帕累托最优)

产品的头部的效应明显，前三产品的总销售金额达到总销售金额的82%以上，符合二八定律。

4.4.4 产品的成本分布

较大一部分产品的成本在12以下，其次是在12-36区间，接着是36-95的区间，95以上的产品较少。

4.4.5 跟目录下的各个产品数

Filters产品类别下的产品数最多，达到933。其次是839的Chewing Gum And Candy。最少的产品数的是类别Extinguisher，只有6个。

5 支付方式

近7成的用户选择现金支付。

6 总结

6.1 三年间销售额达到了17.8亿。

6.2 该连锁店处于上升期，销售额、订单量呈上升状态，、趋于平稳。

6.3 该连锁店的销售业绩呈现周期性，周一到星期天较高，星期日最低。

6.4 总体复购率达到了87.91%，用户黏性较大。

6.5 月初到月末的复购率达到66%以上，用户的黏性较大。

6.6 用户月留存率达到74%以上，老客户居多。

6.7 产品符合二八分布，前三产品Special Gasoline、Gasoline、Diesel Auto Clean达到总销售金额的82%。

6.8 80%的产品的成本在36以下。

6.9 近七成的用户选择现金支付。

欢迎加飞总微信号

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

python与tableau结合_Python与Tableau相结合 万字长文搞定传统线下连锁店数据分析...

python与tableau结合_Python与Tableau相结合万字长文搞定传统线下连锁店数据分析...