SQL是必学的吗?数据科学家的技能树该怎么点?

大数据
作为一名数据科学家,你使用什么方法?你还有其它方法吗?数据科学家必须要会使用SQL吗?本文将讨论SQL在数据科学中的作用,以及结构化查询语言(SQL)的替代方法。

本文转载自公众号“读芯术”(ID:AI_Discovery)。

一间屋子10个人,可能其中5位数据科学家都表示需要结构化查询语言(SQL)才能工作,另一半人则表示还有其他方法可以处理数据。

作为一名数据科学家,你使用什么方法?你还有其它方法吗?数据科学家必须要会使用SQL吗?本文将讨论SQL在数据科学中的作用,以及结构化查询语言(SQL)的替代方法。

[[355527]]

SQL

是否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师,而有些团队则只有一位数据科学家。所以数据科学家是否需要了解SQL,你心中自有答案。

但是,讨论一下是否需要了解SOL的原因,以及不需要SOL的时机是颇为有趣且十分重要,讨论这个问题也有助于即将入职的数据科学家了解工作期望。以下是我使用SQL的原因:

  • 使用SQL查询表格以获得有用的数据集
  • 保持自主感(尽管也需要帮助)
  • 在现有的SQL查询中随时发现和创建新功能

尽管数据科学可以看作是只专注于Python和R以及复杂机器学习算法的工作,但如果不充分利用SQL的优势,一个团队可能很难执行数据科学运算进程。不过,有时SQL并不是必需的,这取决于个人在数据科学领域的具体角色。

如果能从数据工程师或数据分析师那里获得一些帮助,便可以参考其他替代方法。此外,当SQL查询功能完全不符合专业时也不需要SQL,因为此时专注点在于数据科学模型开发,类似于在已获取的数据上相互测试各种机器学习算法。

替代方法

从数据分析师或数据工程师处获取数据集后,对数据集的下一步改进就是创建新功能要素,而不只是直接从数据表中获取字段。例如,如果数据集中有10个字段,则可以开发几个全新指标作为字段,而不是通过计算第1列和第2列来直接创建新的第11列。除了SQL以外,另一个比较容易进行此计算的工具是pandas。充分理由显示,数据分析师和数据科学家已广泛使用该库。

使用pandas,能够快速执行复杂计算,并且只需一行代码。有时很难使用SQL计算数据,因为它在视觉上呈多行布局(仅为个人看法)。

以下是一些常用的pandas 数据框操作,旨在方便化数据集特征工程运算。

  1. * groupby* items* loc* iloc* iteritems*keys* iterrows* query (this operation is quite similar to SQL quering, Ihighly recommend)* aggregate* corr* mean, median, min, and max* quantile*rank* sum* std* var* append* merge* join* sort_values* isnull* notna*between_time 

大量操作都可以应用到pandas 数据框架中。个人最喜欢的操作:

  • 分组(Groupby)——对数据进行分组,并对所述组执行进一步的操作。
  • 查询(query)——一种类似SQL的查询方式,但在个人的数据框架中。

[[355528]]

图源:unsplash

个人认为,计算全新的字段或指标更容易,这些字段或指标最终将用于个人pandas数据科学模型。不过,有人偏爱只在SQL中执行计算。对我来说,使用SQL的好处是我不必一次性添加所有新特性(查询时间过长),这样当我想添加一个新特性时,操作就非常简单有效。

数据科学家需要了解SQL吗?答案不是绝对的。这取决于公司、团队,有时还取决于个人偏好。

使用SQL查询,可以使用户受益匪浅,所以如果你还不了解SQL,可以学习其使用方法。如果你偏爱类似pandas的替代方法,你可能是庞大数据科学团队中的一员。

一些数据科学家同时使用SQL和Python来为模型创建最终的数据集。pandas最独特的地方在于它有一个类似于SQL的查询操作,用户可以在pandas数据框中综合使用SQL和Python。所以,想好你自己的解决方案了吗?

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2016-04-11 14:15:06

数据科学数据挖掘工具

2018-02-28 15:03:03

数据科学家数据分析职业

2019-07-05 10:29:17

大数据数据科学家

2017-08-04 15:53:10

大数据真伪数据科学家

2019-03-25 21:18:41

数据科学家大数据技能

2018-05-03 09:11:51

数据科学家职业数据科学

2019-11-29 18:03:27

数学R语言算法

2015-06-11 10:27:29

数据科学家

2021-10-08 13:45:23

大数据数据科学家货币

2012-12-27 09:50:36

Facebook

2018-10-16 14:37:34

数据科学家数据分析数据科学

2012-12-27 09:52:23

数据科学家大数据

2018-05-22 09:07:54

数据科学语言职位

2018-02-07 15:45:37

数据科学家数据技术

2015-08-25 13:20:29

数据科学

2020-03-20 14:40:48

数据科学Python学习

2024-01-30 17:46:24

2012-12-26 10:51:20

数据科学家

2018-12-24 08:37:44

数据科学家数据模型

2018-03-12 12:44:59

数据科学家人工智能数据科学
点赞
收藏

51CTO技术栈公众号