数据科学工具制造商Anaconda在其最新的数据科学状况报告中称,超过40%接受调查的组织表示,出于安全考虑,他们正在减少使用开源数据科学工具,其中Log4j等潜在漏洞是头号驱动因素。
Anaconda调查的3493名受访者中,近90%的人表示他们在自己的组织中使用开源软件。Anaconda发行的Python和R工具是数据科学中被大量使用的开源项目(47%的受访者使用),其他工具包括GitHub(45%)、RStudio(33%)、Databricks(16%)和H2O(10%)。
只有8%的受访者表示,他们所在的组织不允许使用开源软件。Anaconda的报告称,这一群体没有采用开源的首要原因是对脆弱性、潜在暴露和风险的担忧,54%的人表达了这些担忧。该公司表示,这比2021年的报告增加了13%。
大约10个月前,在Log4j中发现的漏洞给整个开源软件社区投下了长长的阴影,因为对所谓的“软件供应链”的担忧在开源用户中不断蔓延。
约25%的受访者表示,在Log4j漏洞被披露后,他们减少了对开源软件的使用,另有15%的受访者表示,在此之前他们减少了对开源软件的使用。三分之一的受访者说他们没有减少开源软件的使用,只有7%的人说他们增加了开源软件的使用。
Anaconda还研究了组织如何保护他们的开源数据科学和机器学习软件。该公司发现,43%的受访者报告使用托管存储库,而36%的受访者说他们使用漏洞扫描器(这个数字同比增长了约6%)。另外34%的公司报告说,他们会对漏洞数据库进行手动检查,而19%的公司没有保护他们的开源管道(幸运的是,这一数字同比下降了近6%)。近四分之一(23%)的人说他们不确定。
但在数据科学领域,也不全是厄运和悲观。Anaconda特别发现,数据科学的另一个特定子领域正在取得一些进展:可解释性和缓解偏见。
在模型的可解释性方面,36%的受访者表示,他们正在使用测试来评估可解释性,而另外30%的受访者已经实施了防止(偏见)数据挑选的方法。超过四分之一(28%)的人说他们只在低风险的情况下使用低可解释性模型,而另外28%的人说他们使用统计测试来评估可变因素。只有24%的人说他们没有使用任何措施或工具来确保模型的可解释性。
在模型公平和减少偏见方面也取得了进展。近三分之一(31%)的受访者表示,他们根据内部设定的标准评估数据收集方法,而25%的受访者表示,他们手动测试数据集的公平性和偏见。近五分之一(19%)的人表示,他们会进行一系列统计公平测试,15%的人拥有一个卓越中心。约四分之一(24%)的人表示,他们没有公平和减少偏见的标准。
Anaconda还调查了被调查公司正在寻找的数据科学技能,并询问了数据科学组织潜在的人才短缺问题。
工程技能是数据科学组织中最需要的技能,38%的调查受访者选择这一类别作为首要关注的问题。调查显示,紧随其后的是概率与统计学(33%)、商业知识(32%)和大数据管理(31%)。
Anaconda表示,总体而言,约90%的专业受访者表示,他们的组织“担心人才短缺的潜在影响”,近三分之二(64%)的人表示,他们最担心的是组织招聘和留住技术人才的能力。超过一半的受访者表示,员工数量不足可能会影响组织对数据科学的采用。
尽管报告对技能方面的前景持负面看法,但Anaconda负责运营的高级副总裁杰西卡•里夫斯(Jessica Reeves)并不太担心。
里夫斯在一份新闻稿中说:“由于数据科学家一直被认为是美国最好的职业之一,人才储备肯定会满足需求。”“有助于缩小这一差距的成功解决方案包括提高现有员工的技能,以及允许更强大的远程工作选择。组织机构应该加强继续学习的工具和资源,学术机构应该填补学生的技能缺口,并在他们准备进入劳动力市场时将其转化为优势。”
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除