示例统计销售榜品牌及销售额
importpandas as pdimportnumpy as npimportos
os.chdir('F:\\50mat\源数据1000张表格')
name= '户外服装&滑雪衣.xlsx'df=pd.read_excel(name)
df.head()
打印结果
日期转化率访客数三级类目客单价品牌
0-080.036466837滑雪衣3887.646034品牌-5
1-080.0061109951滑雪衣1890.92品牌-7
2-080.00827911067滑雪衣1001.541028品牌-19
3-080.00364725296滑雪衣986.192182品牌-17
4-080.0060125053滑雪衣2818.957816品牌-14
df['日期'].unique()
打印结果
array(['-08', '-07', '-06', '-05', '-04', '-03',
'-02', '-01', '-12', '-11', '-10', '-09'],
dtype=object)
一:操作单表
销售额
df['销售额'] = df['访客数'] * df['转化率'] * df['客单价']
df.head()
打印结果
日期转化率访客数三级类目客单价品牌销售额
0-080.036466837滑雪衣3887.646034品牌-5118657.898127
1-080.0061109951滑雪衣1890.92品牌-7114977.898920
2-080.00827911067滑雪衣1001.541028品牌-1991761.540049
3-080.00364725296滑雪衣986.192182品牌-1790969.935091
4-080.0060125053滑雪衣2818.957816品牌-1485634.834594
二:汇总销售额
#汇总销售额
df_sum= df.groupby('品牌')['销售额'].sum().reset_index()
df_sum.head()
打印结果
品牌销售额
0品牌-15.479539e+06
1品牌-102.913271e+06
2品牌-112.298716e+06
3品牌-122.821199e+06
4品牌-133.256508e+06
添加行业标签
#添加行业标签
df_sum['行业'] = name.replace('.xlsx','')
df_sum.head()
打印结果
品牌销售额行业
0品牌-15.479539e+06户外服装&滑雪衣
1品牌-102.913271e+06户外服装&滑雪衣
2品牌-112.298716e+06户外服装&滑雪衣
3品牌-122.821199e+06户外服装&滑雪衣
4品牌-133.256508e+06户外服装&滑雪衣
三:操作所有表格
importtime
start=time.time()
result=pd.DataFrame()for name inos.listdir():
df=pd.read_excel(name)
df['销售额'] = df['访客数'] * df['转化率'] * df['客单价']
df_sum= df.groupby('品牌')['销售额'].sum().reset_index()
df_sum['行业标签'] = name.replace('.xlsx','')
result=pd.concat([result,df_sum])
final= result.groupby('品牌')['销售额'].sum().reset_index().sort_values('销售额', ascending =False)
end=time.time()print('操作用时:{}s'.format(end-start))
操作用时:6.295360088348389s
#将科学计算法,改为两位小数
pd.set_option('display.float_format', lambda x :'%.2f' %x)print(final.head())
final.describe()
打印结果
品牌 销售额
15 品牌-5 1226223640.73
8 品牌-17 1195280571.60
2 品牌-11 1151829215.73
4 品牌-13 1150687029.66
3 品牌-12 1143519788.23
销售额
count20.00
mean1084854125.76
std63774592.90
min979272391.61
25%1050719265.66
50%1071804742.94
75%1118990465.22
max1226223640.73
七:数据分析模型
#表格处理示例:销售榜品牌及销售额
importpandas as pdimportnumpy as npimportosimporttime
os.chdir('F:\\50mat\源数据1000张表格')
name= '户外服装&滑雪衣.xlsx'df=pd.read_excel(name)
result=pd.DataFrame()for name inos.listdir():
df=pd.read_excel(name)
df['销售额'] = df['访客数'] * df['转化率'] * df['客单价']
df_sum= df.groupby('品牌')['销售额'].sum().reset_index()
df_sum['行业标签'] = name.replace('.xlsx','')
result=pd.concat([result,df_sum])
final= result.groupby('品牌')['销售额'].sum().reset_index().sort_values('销售额', ascending =False)#将科学计算法,改为两位小数
pd.set_option('display.float_format', lambda x :'%.2f' %x)print(final.head(10))
加油:一只阿木木