|
|
51CTO旗下网站
|
|
移动端

实战|Python数据分析可视化并打包

大家好,关于Python数据分析的工具我们已经讲了很多了,相信一直关注的读者对于Pandas、NumPy、Matplotlib的各种操作一定不陌生,今天我们就用一份简单的数据来学习如何使用Python进行数据分析。

作者:野猫谈Python来源:今日头条|2020-05-14 10:19

大家好,关于Python数据分析的工具我们已经讲了很多了,相信一直关注的读者对于Pandas、NumPy、Matplotlib的各种操作一定不陌生,今天我们就用一份简单的数据来学习如何使用Python进行数据分析,本文主要涉及下面三个部分:

  • Pandas数据处理
  • Matplotlib绘图
  • 利用pyinstaller将py文件打包为exe

虽然本文使用的数据(医学相关)不会出现在你平时的工作学习中,但是处理的过程比如导入数据、缺失值处理、数据去重、计算、汇总、可视化、导出等操作却是重要的,甚至还教你如何将程序打包之后对于重复的工作可以一键完成!

数据与需求说明

今天分享的案例来源于一个著名的实验Cell Counting Kit-8。首先我们来看下原始数据:

实战|Python数据分析可视化并打包

我们需要完成的工作主要有四块:

  1. 去除各组所有重复中的最大值和最小值
  2. 所有数据根据D0的对应分组进行标准化
  3. 计算各组数据的均值和标准差表格:均值汇总表和均值-标准差汇总表
  4.  绘制折线图

所以我们需要的结果应该是:在自己的桌面上建一个文件夹命名data,将原始数据data.xlsx放进去,之后运行完程序后文件夹会新增3个文件:

实战|Python数据分析可视化并打包

而这三个文件就是我们需要的结果

均值汇总表

实战|Python数据分析可视化并打包

均值-标准差汇总表

实战|Python数据分析可视化并打包

折线图

实战|Python数据分析可视化并打包

现在我们就来讲解如何实现。

代码实现

首先导入库并调用函数获取桌面文件夹路径并写在全局

  1. import pandas as pd 
  2. import matplotlib.pyplot as plt 
  3. import os 
  4. import random 
  5. def GetDesktopPath(): 
  6.     return os.path.join(os.path.expanduser("~"), 'Desktop'
  7.  
  8. path = GetDesktopPath() + '/data/' 

导入原始数据并去除缺失值

  1. dat = pd.read_excel(path + 'data.xlsx'
  2.                     sheet_name=0, 
  3.                     header=None, 
  4.                     index_col=0) 
  5. dat = dat.dropna(how='any', axis=0) 
实战|Python数据分析可视化并打包

获取重复次数,分组个数和天数。原始数据有6天、5组、5次重复,虽然也可以直接使用这三个数据,但以后的实验这三个可能会更改,为了让代码能够复用,最好不要写死

  1. # 获取分组个数 
  2. ngroup = dat.index.value_counts().shape[0] 
  3. # 获取列数即重复次数 
  4. nrep = dat.shape[1] 
  5. # 获取天数(操作的批次数)即用总行数除以组数,用整除是为了返回int 
  6. nd = dat.shape[0] // ngroup 

去掉极大值和极小值。这里用的解决办法是逐行升序排序,然后去掉第一个和最后一个数据,可以用apply+lambda处理

  1. df = dat.apply(lambda x: sorted(x)[1:nrep - 1], axis=1) 
  2.  
  3. df = df.to_frame(name='total'
  4. for i in range(nrep - 2): 
  5.     df[f'{i + 1}'] = df['total'].str[i] 
  6.  
  7. df.drop(columns=['total'], inplace=True

用匿名函数排序返回的是Series的升序列表,须有转换回DataFrame再拆成三列,最后去掉原来返回那一列即可。因此有了如上代码

实战|Python数据分析可视化并打包

在常规列中添加分组信息和批次信息,便于后续做汇总表

  1. df['group'] = df.index 
  2.  
  3. day_lst = [] 
  4. for i in range(nd): 
  5.     day_lst.append(f'Day{i}'
  6. # 用列表推导式做列表内元素重复并添加新列 
  7. df['day'] = [i for i in day_lst for _ in range(ngroup)] 

效果如图:

实战|Python数据分析可视化并打包

根据D0的各组均值对所有数据标准化,可以简单理解为DO批次5个组去除两个极值后各求平均值,这5个批次的5个组各自除于D0对应组的均值)

  1. # 根据组数取出D0的所有行数,然后按行求均值,会自动忽略文本信息 
  2. mean_lst = df.iloc[0:ngroup, :].mean(axis = 1).tolist() 
  3.  
  4. # 由于接下来要按行进行迭代,且索引的分组信息已经有一个新列来表述,这里重置索引方便迭代 
  5. df.reset_index(drop=True, inplace=True
  6.  
  7. # 迭代的内容看起来复杂实际上不难 
  8. # 本质上就是将迭代行的数据和D0对应分组均值相除 
  9. for index, i in df.iterrows(): 
  10.     df.iloc[index, 0:nrep - 2] = i[0:nrep - 2] / mean_lst[index % ngroup] 
实战|Python数据分析可视化并打包

标准化结束后即可获取均值和标准差

  1. # 同样mean和std均会忽略非数值列 
  2. # 谨慎一点用df['mean'] = df.iloc[:, 0:nrep - 2].mean(axis=1)也可以 
  3. df['mean'] = df.mean(axis=1) 
  4. df['std'] = df.std(axis=1) 
  5.  
  6. # 获取最后四列 
  7. results = df.iloc[:, -4:] 
实战|Python数据分析可视化并打包

制作数据透视表并导出

  1. # 用round保留4位有效数字 
  2. tb1 = pd.pivot_table(data=results, 
  3.                      index='group'
  4.                      columns='day'
  5.                      values='mean').round(4) 
  6.  
  7. tb2 = pd.pivot_table(data=results, 
  8.                      index='group'
  9.                      columns='day'
  10.                      values=['mean''std']).round(4) 
  11.  
  12. tb1.to_excel(path + '/result(mean).xlsx'
  13.              index=True
  14.              header=True
  15.  
  16. tb2.to_excel(path + '/result(mean+std).xlsx'
  17.              index=True
  18.              header=True

在Jupyter Notebook呈现结果如下,在Excel的呈现如本文开头所示

实战|Python数据分析可视化并打包

利用matplotlib画图,补充两个细节,如果在Jupyter Notebook希望出图需要加上如下代码

  1. %matplotlib inline 

如果有中文字符需要呈现也同样需要用代码设置

  1. plt.rcParams['font.sans-serif'] = ['SimHei'

汇总表的索引(组名)可以用做图像的标签。而颜色和折线上标记样式所用的测量是根据所需的个数随机无放回抽样

  1. group_lst = tb1.index.tolist() 
  2. colors = ['b''g''r''c''m''y'
  3. color_lst = random.sample(colors, ngroup) 
  4. markers = ['.'',''o''v''^''<''>'
  5.            '1''2''3''4''s''p''*''h''H''+''x''D''d'
  6. marker_lst = random.sample(markers, ngroup) 

最后的画图代码:

  1. # 设置画布大小 
  2. plt.figure(figsize=(8, 5)) 
  3.  
  4. for i in range(ngroup): 
  5.     plt.plot(tb1.iloc[i, :].tolist(), 
  6.              f'{color_lst[i]}{marker_lst[i]}-', lw=2) 
  7.  
  8. plt.xticks(range(0, nd), day_lst, fontsize=18) 
  9. plt.ylabel('Relative Cell Amount', fontsize=18) 
  10. plt.legend(group_lst, loc='best', fontsize=12) 
  11. # 让图像的显示分布正常 
  12. plt.tight_layout() 
  13. # 保存一定要在调用展示之前 
  14. plt.savefig(path + "/折线图.png"
  15. plt.show() 

exe打包

首先在命令行使用pip安装pyinstaller

  1. pip install pyinstaller 

将完整代码保存成py文件,这里我保存为cck8.py,然后放在桌面上data文件夹内,然后打开命令行,cd进入该文件夹,然后调用第二行命令即可以编译成exe

  1. cd C:\Users\chenx\Desktop\data 
  2. pyinstaller --onefile --clean cck8.py 

当然第二行的命令可以自定义如添加图标等等,这里不做介绍,有兴趣的可以自己探索。

【编辑推荐】

  1. 53道Python面试问答题,帮你成为大数据工程师!
  2. 只会柱状图、饼状图、折线图怎么行,来用Python画个热力图
  3. 数据分析必备的5款Python爬虫库
  4. Python数据分析:大众点评数据进行选址
  5. Python数据分析:探索性分析
【责任编辑:未丽燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

从头解锁Python运维

从头解锁Python运维

多维度详解
共19章 | 叱诧少帅

313人订阅学习

Active Directory 架构规划实战

Active Directory 架构规划实战

4类AD架构规划
共15章 | wx5918591c0084b

320人订阅学习

庖丁解牛Ceph分布式存储

庖丁解牛Ceph分布式存储

云计算存储的基石
共5章 | Happy云实验室

191人订阅学习

视频课程+更多

服务器硬件工程师实战指南2020年版本

服务器硬件工程师实战指南2020年版本

讲师:王琦7298人学习过

项目管理实战-如何启动项目

项目管理实战-如何启动项目

讲师:陈志文410人学习过

C语言

C语言

讲师:王健伟96439人学习过

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微