数据分析 VS 算法模型,如何高效分工合作?

数据分析该如何与算法合作,是个老大难问题。一方面是业务方日益提高的,对模型的幻想。 2021-12-06 11:28:37 数据分析合作 如何面对繁杂的数据需求? 大家好,我是一哥,最近有一位数据新人小伙伴私聊我:在平时的工作中会面临着大量的数据需求,不仅多,而且杂,请问如何处理面对这些问题?有没有什么好的提高工作效率的方法? 2021-12-06 07:09:45 数据业务语言 手把手教你对文本文件进行分词、词频统计和可视化(附源码) 本文主要涉及的库有爬虫库requests、词频统计库collections、数据处理库numpy、结巴分词库jieba 、可视化库pyecharts等等。 2021-12-04 09:10:09 可视化 年度数据分析报告,如何写出“年”味 临近年底,很多同学在写年度数据分析报告,一个普遍的困惑就是:这玩意怎么能写出“年”味来。 2021-12-03 11:29:21 数据分析年度 浅析区块链与大数据的关系 随着数字经济的发展,区块链的价值逐渐凸显,区块链和大数据确保了数据的安全性,还可以防止数据泄露,一旦信息存储在链上,就需要有多个权限来访问数据。通过可伸缩性,区块链允许以更平静的方式共享数据。 2021-12-02 22:41:10 区块链大数据数据安全 一文读懂云计算、大数据和AI间的关系和区别 相信大家都听说过云计算、大数据和人工智能,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、大数据的时候会提人工智能、谈人工智能的时候会提云计算……三者之间相辅相成又不可分割,那么这三者之间到底是怎么一回事呢,今天小编就来讲讲。 2021-12-02 21:00:07 云计算大数据AI 大数据在银行风控中的应用 2016年以来,金融科技(FinTech)成为整个金融业关注的焦点,它以金融需求为导向,以科技创新应用为支撑,在较短时间内对金融业产生巨大而深远的变革。 2021-12-02 15:17:42 大数据银行应用 大数据产业“3万亿规划”需解决三个关键点 020年中国大数据产业规模超1万亿,这意味着按照规划,五年内大数据产业规模将增长到目前的3倍,这就需要一系列制度层面到市场落地的“加速器”。 2021-12-02 15:08:53 大数据数字经济领技术 盘点十三种流行的数据处理工具 在过去的十年中,越来越多的数据被收集,客户希望从数据中获得更有价值的洞见。他们还希望能在最短的时间内(甚至实时地)获得这种洞见。他们希望有更多的临时查询以便回答更多的业务问题。 2021-12-02 09:36:23 大数据工具数据分析 2021版的《华尔街之狼》该怎么拍? 原创 精选 在未来,金融科技在政策趋势、技术创新和成果转化方面还将迎来哪些新的变化?新一代金融科技技术还将在哪些金融业务场景实现落地并带来新的创新机会呢? 2021-12-01 11:52:35 WOT技术峰会技术 数据驱动决策的三个层级,你在哪一级? 很多同学总好奇:“数据分析要怎么做,才能驱动决策?”天天总听人说:数据驱动,可现实中没见过,只见过自己写的报告石沉大海…… 2021-12-01 11:32:51 数据驱动决策 数据匹配在大数据业务战略中的作用 在整合大数据的同时设计业务战略时,数据匹配和质量的作用势在必行。在这篇文章中阅读更多内容。 2021-12-01 10:18:54 数据匹配大数据数据分析 在大数据时代,想成为赢家,关键要认清这八大发展趋势 随着信息技术的发展,人们不仅交流也变得很密切,连日常生活也越来越方便,而促成这一切变化的产物,正是大数据。 2021-11-30 15:18:04 大数据大数据技术 需要避免的七个数据治理错误 为了防止企业陷入可能导致其数据治理策略无效甚至危险的误区,需要注意以下七个尽力避免的数据治理错误。 2021-11-30 13:59:22 数据治理大数据数据分析 数据仓库详细介绍之数据质量理论与经验 数据质量管理是对数据从计划、收集、记录、存储、回收、分析和展示生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 2021-11-30 08:11:19 数据仓库经验 浅析大数据即席查询工具 Presto 随着业务数据量越来越大、数据任务越来越多以及数据计算类型越来越丰富,G行的原有以Hadoop、MPP为核心的数据平台现有组件表现出了一定的局限性。 2021-11-30 07:49:00 大数据工具 Presto 数据分析八大模型:详解PEST模型 即使不是专业做数据分析的人,也能感受到:政策、经济、社会、技术会影响到行业发展。问题是在,怎么把这四个因素,量化成可分析的指标呢? 2021-11-29 18:33:38 数据分析模型 嵌入式算法之大数据变长存储算法 对于高精度采样结果,其数值最大可能需要3字节,最少1字节,采用标准C的基础数据类型,U16太小无法满足需求,U32则浪费内存。当样本量很大时,其占用的空间问题便突显出来。能否采用变长数据类型存储呢?

数据分析该如何与算法合作,是个老大难问题。一方面是业务方日益提高的,对模型的幻想。

[[438791]]

本文转载自微信公众号「接地气学堂」,作者接地气的陈老师 。转载本文请联系接地气学堂公众号。

数据分析该如何与算法合作,是个老大难问题。一方面是业务方日益提高的,对模型的幻想。另一方面是大量企业里存在的,数据采集差,缺少足够数据人员,工作目标不清晰等等问题。到底该如何和分析与算法协同增效?今天系统分享一下。

01两种典型的错误做法

狗不理式:有些公司领导喜欢嫌弃自家数据分析师没本事,总认为“上个模型才牛逼”。于是数据分析师们皆明哲保身,干脆和所有带“模型”俩字的工作划清界限,统统甩给算法工程师。

这么干,当然会坑死算法。

且不说,很多时候领导口中的模型根本就是“SWOT”一类虚无缥缈的东西;

且不说,很多建模目标根本就是:“预测我做什么能成功”一类不切实际的东西。

就单单基础特征筛选工作没人支持一项,就会让算法工程师累死。项目进度慢,最后还是被嫌弃:“为啥你的模型不能100%精准预测!!!”

当然,此类问题常见于传统企业。特别是数字化转型阶段,领导们看了很多高大上的ppt,自以为自己很懂的传统企业。

当狗用式:一些互联网公司对于算法的应用有相对清晰的定位,算法小组的地位也较高。于是走向另一极端:把配给算法组的分析师当狗使。做啥你不用管,你按我说的取数就好了。用无休无止的取数表淹没了数据分析的工作。

这么干,坑的是所有人。因为连数据分析师都不懂算法逻辑,那运营部门更不懂。在茫然无知的情况下,运营部门只能通过简单的数据指标监控,来推测算法效果。并且稍有风吹草动,就开始质疑:“算法不灵了吧!”,“你们悄悄改了啥!”,“就是你们瞎搞!”这些质疑,又会成为部门间甩锅、扯皮的导火索,引发无休无止的内耗。

02破局的基本思路

从本质上看,分析和算法,都是数据的应用。那么灵魂拷问来了:是不是有了数据,钞票就源源不断从电脑里喷出来了?显然不是!数据本身不能包治百病,想让数据发挥作用,得紧密结合业务实际,找好数据能帮上忙的发力点才行。

而业务的实际情况又很复杂,经常是数据和业务行为交织在一起。

比如:

短视频DAU下降,是算法推荐不给力,还是创作者本身质量太差

交易转化率下降,是商品推荐不给力,还是货源本身没有选好

业绩预测不精准,是预测模型不给力,还是业务自己放水了

这时候,业务部门永远可以甩锅:“我们的数据太无能,我们要是有字节的算法就牛逼了”。而数据这边,不管是算法还是分析,都是背锅的。所以最终的破局思路,是数据的同学们团结一致,找好场景,做出成绩,减少背锅,而不是自己人踩自己人。

空口说显得太空洞,下边结合一个具体问题场景看看。

03典型合作场景之一:项目立项

问题场景:某大型制造企业,期望建立“多维度立体式分析模型”,提升招聘效率。问,此时该怎么接需求?

这是个典型的需求不清晰场景。

  • 什么叫:招聘效率?
  • 招聘成本更低?招聘回来以后留存更好?招聘到合适的人?
  • 什么叫合适的人?是否已经有清晰定义?
  • 流水线工人、销售、营销策划、管理人员的“合适”定义是否一致?
  • 流水线工人、销售、营销策划、管理人员的招聘问题是否相同?

以上情况统统不清楚

因此无论是算法/分析,谁接需求,都得先问清上边的问题。当然,在问题定义都模糊不清的时候,让数据分析师站出来沟通更合适。数据分析师和业务贴的更近,更容易理解业务语言,引导业务思路。

业务方进一步给出的回答是:

1、要帮助管理岗位招到更合适的人

2、要发现:XX省市的流水线工人更容易招,我们集中招聘

3、要让整个部门的用人成本,控制在XXX万元以内

那么,是不是可开始建“多维度”“立体式”的模型了呢?

不!远远不到!

04典型合作场景之二:任务分解

有三大问题,制约着项目推进:

1、管理岗位的“合适”定义不清晰。管理人员的考核,远比流水线工人复杂。流水线工人只要考察年龄、身份证、学历几个简单维度即可,考操作技巧也能通过标准化作业考核。管理人员则复杂的多,还有“领导看他顺不顺眼”这种高度个性化、无法量化的考核点。因此不能简单的止步在这里。需要进一步定义。

2、各省市劳动力数据缺失。注意:从现在HR收到的简历里筛选出合适的,和从茫茫人海里锁定哪里的劳动力多,完全是两个问题。因为已经收到的可以统计数据,茫茫人海压根连数据都没有。如果盲目开工,很有可能引发误判。

3、整体部门用人成本与招聘效率,根本就是两个问题。整个部门用人成本,除了新招聘以外,还有在职工资福利,还有离职人员赔偿等等。如果目标是控部门整体成本,那到底哪一块总量最高,哪一块占比最大,哪一块是冗余,哪一块增长最快,要提前一一分析清楚。再看怎么解决。

此时,可以拆出至少五个任务

任务1:定义管理岗位的“合适”(可能为了定义合适,要单独建个业务模型,比如胜任力模型)。

任务2:基于过往面试数据,为管理岗位“合适”做标注,为建模做准备。

任务3:收集各地区劳动力市场数据(劳动力市场发布信息、中介提供信息等)。

任务4:结合过往招聘活动,验证分地区招聘合理性(也有可能求职者虽然是内地省份的人,但是找工作还是跑到沿海省份找,分地区意义没那么大,这些假设都待验证)。

任务5:分析整体用人成本结构与走势,找到成本控制关键点。

这五个任务,主要都是数据分析的活。数据分析理清现状,采集数据,后边算法就能有的放矢。比如:

1、在已有管理岗位“合适/不合适”标注的情况下,结合简历信息、猎头给到信息、招聘渠道信息,对面试人员建分类预测的模型(逻辑回归/决策树),预测“合适”概率

2、在已经有整体用人成本结构、增长原因、发展趋势数据情况下,建预测模型(时间序列/多元回归)判断用人成本是否会超出预期,从而干预决策(不要因为短期缺人就大量招聘,对比给加班费和增加新人成本差异)。

当然,还有第三个合作点:在工作中遭遇挑战,大家一起应对。

05典型合作场景之三:问题解答

面对“模型为什么不准!”终极问题,一定是所有人一起努力。首先要排除的,是外部因素、意外波动、业务主动行为的影响。不要是个问题就往模型身上泼脏水。

比如:

突然有高管变动,引发管理层招聘要求全变

招工来源地发生疫情,人员出不来

行业领头企业突然提高了薪资,拉高了整个行业成本

原定的招聘计划因为各种原因推迟

原定招聘计划,没有达成预期,要加新渠道/新方式

所有这些因素都会让原先设计的模型不成立或者效果下降。应对这些变化,数据分析要冲在前边,在日常监控数据的时候,就及早发现问题,提示业务风险,提醒所有人关注变化。而不是等着业务打上门来再来扯皮。

06小结

算法和分析的工作性质差异,使得这两者合作分工的时候,天生侧重点不同。理想的合作方式,就是:分析扫清业务障碍,算法集中提升效率。大家一起做出成绩。

实际上,如果你工作时间够久,和业务接触的够多,就会发现:大部分直接从业务口中冒出来的“建模型”需求,都不靠谱,不是数据缺失,就是目标不清。别是涉及预测问题的时候(分类问题相对好一点)。经过数据分析师转化的需求,反而靠谱很多。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月8日 21:28
下一篇 2023年5月8日 21:28

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信