|
|
51CTO旗下网站
|
|
移动端

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

本内容为高频常用的数据处理操作对比,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。本内容尽量简单直白、详细步骤,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。

作者:数据炼金术师来源:今日头条|2020-06-17 12:36

在开始之前,再次强调一下:

  • 本内容为高频常用的数据处理操作对比,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。
  • 本内容尽量简单直白、详细步骤,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

关于网友的留言,老海也反馈一下自己的看法

之前有网友留言说:

  • “SQL从来不是工具,它是语言!”

说实话,我很吃惊。在我的理解中,语言的本质就是工具,而百度百科也是这样定义的:

语言即传递信息的声音。是人类最重要的交际工具,是人们进行沟通的主要表达方式

自然语言也好、计算机语言、数据库语言也好,就是人与人、人与机之间沟通的一种编码解码工具。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

语言作为一种沟通工具,通常需要通过一定的实体载体来记录和传达,不能独立存在。

就如英语是门语言,也是沟通工具,而听、说、读、写是它的传达方式,是工具化的载体。

SQL也是一样,它是语言工具,而MySQL、HiveSQL等等数据库工具都是它的设计表达载体。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

回头看我们为什么要学英语?,为什么要学Python?,为什么要学SQL?

相信你的理由,绝对不仅仅它是一门语言或者文化,否则只会像高中应试外语那么难受!

更多的时候是出于实现某种目的,而刺激我们主动去寻找这样一种可以实现思考沟通的工具

总之,语言即是工具。凡是工具,不拘一格,皆为所用!

还有网友留言说:

  • “Power BI 只是可视化厉害一点儿,其他都不行”

OK,我们来看看这几年PowerBI发展趋势,你会发现它比Tableau更加强大,与其他BI产品的差异也是越来越大,这与微软本身的用户环境和软件家族存在很大关系。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
2020
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
2019年

再来看看招聘网站上的要求,PowerBI近几年开始逐步成为主力工具,比如运营部门、财务部门、商业分析等覆盖的业务范围越来越广。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
饿了吧招聘要求
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
阿里招聘要求

以前Python一直是我的主力工具,可是现在老海强推Power BI,甚至建议首选它来做商业分析

一个公式:Power BI 数据分析流程 = PQ + PP + PV

即PowerQuery—数据处理查询、PowerPivot—数据结构建模、PowerView—数据图表可视化

这个流程顺序,也是所有分析工具都通用的套路,使用起来自然相当顺手舒服。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

而且Power BI可以彻底解决很多在Python或者Excel中让人烦透了的问题,比如:

  • 做个图表再也不用写Python几十甚至上百行的代码,也不用调整N多了Excel图表参数。
  • 做个表格直接星型连接,再也不用pandas来回join、也不用Excel迷之效果的VLOOKUP函数
  • 做个分析,前期用Python处理数据,后期用Excel出图表,现在直接PowerBI搞定!

具体的这里不多说了,感兴趣的可以看看我的问答,里面专门有写到。

总之,老海认为:Power BI绝非只有可视化,相信随着版本迭代,未来足可代替Exce甚至是Python

OK,我们回过来继续对比Excel、SQL、PowerBI与Python

之前已经介绍了数据准备和导入,不了解的可自行翻看之前的文章。

今天涉及数据的查看与筛选,废话不多说直接上操作演示:

查看与筛选数据

当使用Excel时:

第一步:可以先观察一下数据情况,比如行数、列数,首行以及尾行,

可以使用shift + ctrl + 方向键 ↓ ,直接拉到底部查看

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
查看行数&列数

使用shift + ctrl + 方向键 ↑,来查看最前面的数据情况

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
查看最前面的数据

第二步:也可以选中整个列来查看特定字段的数据情况

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
特定字段

第三步:或者查看前10行数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
前10行

第四步:查看最大或者最小的前10行数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
最大前10行

第五步:查看不同数据列的空值情况

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第六步:查看符合某个条件的数据情况

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第7步:选择“筛选”中的“高级”,可以进行多条件筛选数据,比如同时满足天津市购买量大于2、武汉市购买量大于3

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第8步:高级筛选也可以实现多条件或关系筛选数据,即满足其中一个条件即可。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第9步:查看特定列名去重的数据情况,可以选择“数据”中的“删除重复项”来实现

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

也可以通过“数据”中“筛选”下的“高级”来完成,此处注意勾选“不重复的记录”

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第10步:查看去重后数据的统计情况,此方法类似于python的value_couts

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

当使用SQL时:

第1步:查看数据情况

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第2步:查看前10行数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第3步:查看某个条件的数据,比如查看门店城市为天津的数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第4步:查看满足多个条件中任一个的数据,比如查看天津或者武汉的数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第5步:查看特定列名数据

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第6步:查看特定列名的去重后数据的统计数量。比如门店城市共计多少

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第7步:查看特定列名去重数据,查看去重后的具体城市名称

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第8步:查看非空值记录与空值记录

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

当使用Power BI时:

第1步:查看数据基本情况,在“主页”下选择“转换数据”,进入PQ编辑器,查看数据。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第2步:选中某个字段,在左下角可以查看非重复值的数量

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第3步:在PQ编辑器中,可以使用各类查看功能,比如保留最前几行、最后几行等等

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第4步:查看特定的字段列数据,点击“选择列”来筛选特定的字段列即可

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第5步:查看符合某个条件的数据情况,可点击字段右侧的下拉箭头来筛选

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第6步:查看去重后的数量统计情况,可以使用PQ编辑器中“转换”下的“统计信息”中的“对非重复值进行计数”

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第7步:查看不同数据值的统计情况,点击字段右侧箭头,选择“分组依据”,设置分组字段以及计算的方式,即可完成分组统计。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

当使用Python时:

第1步:查看数据情况,主要看看是否存在乱码,以及数据的整体规模是否正确

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第2步:查看数据前10行情况,主要查看不同字段下的数据格式情况,当然还可使用.dtypes查看当前字段的数据类型是否合理。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第3步:查看特定列的数据,一般建议使用loc、iloc进行切片操作。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第4步:查看满足某个条件的数据,一般使用loc,配合条件筛选

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第5步:查看满足多个条件中任一条件的数据,除了isin,还可以使用或与非的关系组合

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第6步:查看是否存在空值,关于空值NULL,Nan的内容,可翻阅老海之前的文章

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

第7步:查看特定列去重后的数据,以及统计个数。

数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

OK,限于篇幅和时间,本篇内容先到这里了。老海原本计划3篇完成,看来需要5篇才能全部写完。

欢迎关注后续内容,涉及更新与删除、分组聚合、多表关联、多表联合、排序与分组、存储与导出等操作。

【编辑推荐】

  1. 优秀的数据科学编程语言是R还是Python?
  2. 5000行python代码+可视化60W数据,告诉你知乎用户不为人知的事
  3. 利用Python进行数据分析之初识Pandas
  4. 18个值得推荐的学习Python和SQL的数据科学平台
  5. 手把手教你用直方图、饼图和条形图做数据分析(Python代码)
【责任编辑:未丽燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

实操案例:Jenkins持续交付和持续部署

实操案例:Jenkins持续交付和持续部署

微服务架构下的自动化部署
共18章 | freshman411

167人订阅学习

思科交换网络安全指南

思科交换网络安全指南

安全才能无忧
共5章 | 思科小牛

101人订阅学习

云计算从入门到上瘾

云计算从入门到上瘾

传统IT工程师的转型
共26章 | 51CTO阿森

256人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微