数据科学初学者面临的5个常见误区

大数据
随着人工智能的发展,数据科学家开始越来越受欢迎。与此同时,数据科学家确保自身能够持续地提升自我价值,以及通晓如何利用数据科学最佳实践是很重要的。这篇文章中列举了五个数据科学家可能常犯的误区,并对如何防止这些失误的出现给出了一定的建议。

数据如今已经体现出巨大的价值——企业通过数据分析来为包括市场支出、员工决策到产品开发等所有事情提供参考性建议,而这也意味着,数据科学家在工作中的价值正变得越来越突出。

随着人工智能的发展,数据科学家开始越来越受欢迎。与此同时,数据科学家确保自身能够持续地提升自我价值,以及通晓如何利用数据科学最佳实践是很重要的。这篇文章中列举了五个数据科学家可能常犯的误区,并对如何防止这些失误的出现给出了一定的建议。

[[312931]]

误区1:专注于电脑,而不是同事

在数据科学初学者之中有一个常见的误解,即在实际工作中他们的工作主要是编写技术代码,而另有他人将向业务相关者展示他们的发现。但事实远非如此,数据科学家的工作是发现有助于业务增长的信息。

首先,数据科学家必须能够与业务人员交流,共同探讨他们发现的信息如何在更大程度上对业务产生影响;其次,他们必须知道到哪里寻找这些信息。第二部分是至关重要的:一个整天坐在办公桌前的数据科学家,可能永远不会意识到销售团队正面临着客户流失的问题,或者营销团队正在为转化率的事焦头烂额。

业务运营中总会存在各种各样的问题,数据科学家可以帮助解决很多问题。不要只看数据,离开你的办公桌去了解公司的日常工作,这样你就能知道如何提供更大的价值。

误区2:忽略业务领域的大环境

除了定期与业务部门的同事沟通之外,花时间了解你所在行业的大环境也很重要。如果你正在为一家零售公司制定解决方案,花点时间开车去他们的实际地点,观察他们是如何运作的——销售人员在做什么、购物空间的设计、经理的工作内容,等等。

更全面地理解业务环境,对于提供业务洞察和数据科学最佳实践至关重要。如果你不了解企业是如何运作的,就不可能帮助它更好地运作。数据科学家必须理解数据代表什么,否则,您将会遇到这样的情况:根据您的模型,一切都应该完美地工作——但是仍然存在一些现实问题,您只能通过观察业务的实际情况来了解这些问题。

当您对业务的大环境有了一定的了解之后,就可以找到失效的流程,查看数据,并推测出了什么问题,在对您的假设进行测试并确认之后,做出相应的改进。

误区3:只注重理论而忽视实践

与许多领域一样,数据科学往往是实践重于理论。问题是,数据科学的实践是学不到的,你必须在真实的环境中运行。

在企业中,数据科学家必须经受各种压力,包括:

  • 与其他部门和团队协调。有时可能会随着内部优先级的变化而从一个项目跳到另一个项目,或者当您的主要解决方案不能按照建议实现时,需要寻找替代解决方案。
  • 代码集成的挑战。有时,您的代码不能轻松地与现有代码集成,这意味着您必须找到对应解决方案。
  • 预算限制。在实际工作中,每个项目都有预算限制。弄清楚如何在有限的预算下,获得足够好的(而不是完美的)解决方案,这是数据科学家有效工作的关键部分。

虽然关注最新的文章、博客和前沿技术也很重要,但在这份工作中,有些部分你只能边做边学。一个具备高工作效率的数据科学家,应知道如何平衡他们的专业发展。

误区4:从不问为什么

要成为更好的数据科学家,只需问一问为什么。这个问题有助于消除数据科学家和公司其他部门同事之间的沟通障碍。

想象一下,一家零售公司的营销主管要求建立一个数据模型,该模型能够显示有多少消费者产生购买行为的原因是与他们访问网站的渠道相关的。在创建模型之前,你可以先问问为什么。是为了了解哪些客户是最有价值的,这样他们就能知道从哪里可以获得更高的转化率?是为了帮助销售团队优先考虑渠道吗?他们有办法衡量新老客户吗?他们会将产品收益作为考虑因素吗?

为了建立一个真正有用的模型,你必须理解你的同事希望用它去解决的问题——当你这样做的时候,你可能比你最初预想的更容易解决它,这对每个人都有好处。

误区5、假设您的数据是干净的

在许多情况下,数据科学家80%的工作是清理数据——最后20%的工作是运行机器学习或深度学习模型,以获取数据洞察。

接收数据集时要做的第一步是辨认有多少数据是直接可用的,第二步是确定如何让获得一个完全可用的数据集。

数据从来都不是完美的——如果是的话,数据科学家就不会有工作了。我们必须使不完美的数据变得可用,这要求我们理解业务的大环境——您不需要哪些信息?哪些是关键任务?

人们很容易陷入一种现代思维模式,即数据是企业中所有意义和价值的来源(尤其是如果你是一名数据科学家)。但如果我们想要继续为我们工作的公司带来价值、发挥数据科学的最佳实践效果,我们必须承认只有当我们的工作是整个商业生态系统中的一部分时,我们的工作才最有价值——这取决于数据科学家本身与生态的协作。

责任编辑:未丽燕 来源: IT168编译
相关推荐

2013-02-20 10:13:38

JavaJava初学者

2010-12-01 09:48:01

Linux部署

2022-10-19 23:18:27

KubernetesPod错误

2019-06-11 09:52:18

IPv6IPv4程序

2023-01-17 09:27:18

Python语言

2011-06-17 15:06:14

Qt

2018-04-02 11:59:04

Linux命令ln

2022-04-24 15:21:01

MarkdownHTML

2011-09-16 09:38:19

Emacs

2011-08-24 09:54:05

Lua字符春交互

2014-01-03 14:09:57

Git学习

2023-03-09 09:38:01

数据科学

2015-12-21 11:45:27

C语言常见问题错误

2011-04-12 10:13:24

2011-06-23 18:33:37

SEO

2024-03-06 09:31:34

SQL数据库数据结构

2011-07-04 14:14:54

java

2009-09-28 09:45:00

CCNA学习经验CCNA

2010-05-19 17:54:50

2009-06-23 13:32:48

JavaScript初窍门
点赞
收藏

51CTO技术栈公众号