|
|
51CTO旗下网站
|
|
移动端

未来公务员都会是数据分析高手了,你还要当个只会Excel的小白吗?

据外媒报道,新加坡2万公务员将在未来5年内接受数据分析培训,新加坡政府已任命首席数据战略官员,领导实现政府各部门的数据化计划。大数据时代,公务员们都得是“数据”高手!数据分析在新加坡已经是最热门的职业,也是应届生们的首选职业之一。

作者:数据分析来源:搜狐|2018-06-14 15:22

据外媒报道,新加坡2万公务员将在未来5年内接受数据分析培训,新加坡政府已任命首席数据战略官员,领导实现政府各部门的数据化计划。大数据时代,公务员们都得是“数据”高手!数据分析在新加坡已经是最热门的职业,也是应届生们的首选职业之一。

大数据风潮席卷全球,为什么人人都要学数据分析?

1.为什么要学数据分析

大数据号称新时代的石油,很多行业都开始用数据驱动业务,通过对数据的分析和挖掘,从单纯的数据报表,到建模分析,深入挖掘,来帮助业务部分来系统的思考问题。

同时,数据分析也相对容易一些,比较好上手。

Python的应用的领域可以分为爬虫、web开发、数据分析、机器学习等方向。和机器学习相比,数据分析偏业务,机器学习偏工程,数据分析入门对数学功底和算法基础的要求并不是特别高。

2.为什么选Python做数据分析

可以来做数据分析的语言和工具比较多,为什么偏偏选Python?

拿常见的R语言和Excel来说:

R语言其实是为统计学而生的语言,用来做统计学确实非常厉害。

但是R语言在语法的美观和使用的简洁便利上看,要比Python差很多,小函数一堆,而且语法不好理解,没有Python这么容易上手和通熟易懂。

而 Excel只能做一些简单的处理逻辑处理,适合小规模的数据集,或者简单的数据清洗,对于复杂的逻辑处理,数据清洗,还是用Python来的方便。

3.数据分析岗位职业发展路径

在数据科学领域,有三个不同的角色,分别是:商业分析师,数据工程师和数据科学家,难度依次递增。

1.商业分析师

商业分析师的工作主要围绕报表和指标这两块儿,包括:

  • 定义关键绩效指标
  • 设计和实现报表
  • 从用户那里收集报表需求
  • 与数据工程师对接确保数据被正确地收集和存储
  • 查询数据(一般是聚合过的)

2.数据工程师

数据工程师的工作主要围绕架构和收集这两块儿,包括:

  • 通过写数据传输包、设计聚合过程、优化存储,来构建和维护数据传输和存储的基础设施
  • 将生产环境产生的原始数据,转换为商业分析师可以用来制作报表的格式化的数据

3.数据科学家

数据科学家的工作主要围绕预测和优化这两块儿,包括:

  • 负责构建预测算法,以提升用户体验,最终增加参与度、留存率、收益
  • 负责数据驱动的产品的改进和建议

这其实是一个金字塔,商业分析师位于金字塔的最底层,数据科学家位于金字塔的最顶层。

4.数据分析师的薪资如何

拉勾网上数据分析师基本上在1-2年经验的平均年薪在20万左右。

再看一下数据分析师的岗位主要需求城市:

主要是在北上广深和杭州 5个大的城市,其中北京的需求最多,几乎是第2/3/4位的总和。

5.数据分析需求技能

数据分析的内容多,而且比较全面,比如我们前面写了很多关于房地产,拉勾照片,旅游网站的数据,一般来说数据分析分下面几个过程:

第一步:数据的爬取

数据分析过程非常像我们平时做饭,第一步要先买菜,如何获取数据呢,很多时候我们需要爬取数据,爬虫涉及的知识比较多:

比如常见的http原理,爬虫的基本解析库reuqests,网页解析库BS,Pyquery,掌握一些分布式爬虫的框架,当然还有一些反爬虫的策略。当然如果我们能有现成的数据集会方便很多。

第二步:数据格式的处理和清洗

买好了菜,接着我们需要洗菜,也就是数据清洗!常见的数据集都是csv和json格式,需要熟练的掌握着两种格式的。Python中数据分析的神兵利器是Pandas,这个库非常好用,功能也是非常强大的。可以对数据进行各种花色的清洗和切割,几乎所有用Python玩数据分析,必须学会pandas库的用法。

第三步:数据的存储

清洗完成之后数据需要存储起来,一般用的比较多的 SQL 和 MongoDB。几乎所有的数据分析师招聘都会面试SQL的用法,所以掌握一门数据的使用是非常有必要的!基本的增删改查这样入门级的操作,一定要熟练掌握。

第四步:数据的探索

我拿到一个数据集之后,需要对数据进行探索,分析数据之间的关系,每个特征值,每个变量的之间相关性和相互的影响,比如常见的EDA 探索数据分析法。

单变量,双变量和多变量的探索,可以从很多角度,对数据进行切片分析,非常数据集中的变量之间的关系,找出相关性比较强的数据。

如果需要对数据进行深入的挖掘,需要了解机器学习的相关算法,大体分监督学习和无监督学习,比如回归问题,分类问题。这部分对数据集进行深入挖掘之后,可以找出数据间的规律,训练好的之后,可以预测数据,很是牛逼。

第五步:数据的可视化

展现数据最好的方法就是数据可视化,数据的可视化有很大的库,比如 echart,matplotlib,d3 和 Tableau,当然还有excel,一般数据分析师必须要掌握exce或者Tableau。尤其是Tableau现在越来越多的公司用它来做可视化分析,有一个有趣的必然,同样一个库用R语言需要30分钟才能完成,Tableau只需要5分钟。

【编辑推荐】

  1. 如何做数据分析:请收好
  2. 数据分析驱动企业数字转型 感知型企业催生决策新时代
  3. 将企业数据分析移至云端并非易事
  4. 帮助你做高级数据分析的各类 ETL 工具比较
  5. 大数据分析系统Hadoop的13个开源工具
【责任编辑:未丽燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网络管理员备考训练——计算机与网络基础知识

本书是根据全国计算机技术与软件专业技术资格(水平)考试《网络管理员考试大纲》所要求的考试范围而编写的试题集。全书共分10个单元,同步...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊