|
|
51CTO旗下网站
|
|
移动端

结合数据和知识多样性解决数据偏差

大数据是一种加速发展的趋势,正在各个行业渗透。为了使系统自动化并消除对人力的需求,需要多种多样的数据,这些数据全面涵盖人类行为和行动的所有可能方面。世界正在以比正常速度更快的速度数字化。方式上存在一些挑战。

作者:爱码农来源:今日头条|2020-03-12 10:24

大数据是一种加速发展的趋势,正在各个行业渗透。为了使系统自动化并消除对人力的需求,需要多种多样的数据,这些数据全面涵盖人类行为和行动的所有可能方面。世界正在以比正常速度更快的速度数字化。方式上存在一些挑战。例如,数字世界需要强大的处理能力和安全性。这些属性因利基而异。挑战是要在两者之间保持平衡并顺利进行数字处理。

为了自动化在线系统,应用了先进的技术和算法。例如,与在线系统集成的自动聊天机器人倾向于在没有人工查询处理程序任何帮助的情况下与客户进行通信。在这些聊天机器人中,大量数据用于针对在线查询进行训练。数据包括常见问题和一些非常规问题。模型中嵌入了多样化的字典以进行训练和测试。

人工智能和机器学习模型渴望获得数据。在AI方法中,一种被称为“终身学习机器”的新品种正在被设计为无限地,连续地处理数据。数据流构建了渴望的模型和所需的模型。但是,对数据的日益增长的重要性和需求正在以“数据偏差”的形式引入障碍。全世界的AI公司在积极解决数据偏差问题方面都面临着困难。

AI模型的过失

“技术界需要改进”。由于AI模型中的多次失败,这种姿态出现了。例如,Google照片有时无法正确标记实体。该应用程序将非裔美国人标记为“大猩猩”。还有更多 亚马逊的面部识别系统标记了国会议员的罪犯。这种冗长的词句进入现实世界会导致毁灭性的环境。这就是微软公司的创始人比尔·盖茨不赞成将AI模型和此类技术用于监视目的(例如在战争中)的原因。

数据偏差不是AI模型的一部分,但数据包含偏差元素。例如,用于数据处理,过滤,标记和分析的算法无法有效地按比例对特定性状进行分类。所有问题通常都与数据偏见相对应,在这种情况下,模型无法将案例无障碍地分类到相关类别中。此外,由于实践模型失败,法律后果对AI公司施加了重罚。

多样化的数据集:解决方案

AI数据经过各个阶段。在策划阶段可以积极解决数据偏差问题。原因是有时收集的数据不包含所有可能性或各种元素。在此问题上,数据源起着关键作用。例如,从某些来源收集的数据包含有关男人长相的更多数据。

有关男性的属性已明确定义并显示在数据中,但其中并未包含有关女性特征的任何细节。现在,在分类时,与男性有关的数据在女性类别中越来越少。该数据集将被有效地训练以识别男性,并且在识别女性的情况下将给出负面结果。这导致数据偏差。因此,第一件事是均匀而多样化的数据收集。

人种学视角

在数据收集阶段,应进行多元化的调查和人口分析。具体而言,此方法称为人种志。顺便说一句,在技术研究方法论中,人种学对应于提出解决方案的多种社会分析。在收集AI模型的数据时应考虑这一点,同时要牢记抽象观点和来源。例如,基于AI的面部识别系统对女性的面部特征的影响要大于女性的特征,这将使女性比男性更容易识别男性的特征。

如今,在构建面部识别系统时要考虑到宽敞的数据视图。它们涵盖了来自不同文化和国家的面孔的广阔视角。这就是人脸识别技术的重大改进使其在全球范围内被工业应用的原因。

智力多样性

另一种类型的多样性。当要在解决问题中发挥创造力和提高生产力时,需要一个知识分子团队。该小组包括政治方面,学术纪律和风险承受能力计划。知识多样性可以提高模型的生产率和增长速度。而且,它增加了在正确类别中识别特征的可能性,并最终减少了数据偏差。当一个知识团队为开发AI模型做出贡献时,可以有效地涵盖更广阔的视野,而标准实体无法显示任何重大成果。

但是,数据偏差问题尚未完全解决。AI模型中存在一些漏洞,这些漏洞是他们从未面对过的例外。全世界的数据科学家都在积极提出新方法,以帮助最大程度地减少AI模型中的问题并将其商业化以产生更好的收入。

大数据游戏就此诞生。大数据技术和方法论正在为各种数据源和类型的海量数据集的生产做出贡献。数据越多,AI模型越好。因此,机器和自动化系统将在不久的将来取代人工,这为组织中的员工差异创造了令人震惊的局面。

人与各种数据的融合塑造了未来

个体多样化的数据和人类知识分子无法从AI模型获得预期结果。需要集体利用它们。将多样化的数据集进行模型训练和测试以及智能多样性相结合,可以帮助提高模型效率。游戏只是在相关类别中准确标记输入要素并相应地提供输出。多种数据和人类知识分子的融合共同增强了AI模型的优化,使它们在结果精度方面更加强大和准确。

【编辑推荐】

  1. 大数据如何影响会计行业?
  2. 大数据如何以及为什么会迅速变成小数据蔓延
  3. 大数据市场高速发展 促进电子取证行业需求持续扩大
  4. Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
  5. 美国疫情实时信息需人工计算 为何不见大数据助力抗疫?
【责任编辑:华轩 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

网络排障一点通

网络排障一点通

网络排障及优化调整案例
共20章 | 捷哥CCIE

312人订阅学习

VMware NSX 入门到实战

VMware NSX 入门到实战

网络虚拟化革命性技术
共16章 | Cloud袁

212人订阅学习

消息队列Kafka运维实践攻略

消息队列Kafka运维实践攻略

入门级消息队列
共3章 | 独行侠梦

114人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微