罗戈网
搜  索
登陆成功

登陆成功

积分  

干货|供应链中的数据清理有哪些要点?

[罗戈导读]供应链管理活动会处理大量数据,有许多数据清理的场景,今天就来聊一聊这个话题。

数据是数字化的根基,数据清理是数字化最基础的技术之一,各个行业都会用到它。供应链管理活动会处理大量数据,有许多数据清理的场景,今天就来聊一聊这个话题。

一、输入的是垃圾,输出的也是垃圾

相信许多小伙伴都听过这样一句话“Garbage in, Garbage out”,中文的意思是“输入数据是垃圾,输出的结果也是垃圾”。这个垃圾不是我们日常生活中的废弃物,特指无用的、错误的数据。为什么会是这样?这需要从数据处理的过程说起。

当我们从外部数据源获得数据后,根据一定的公式和模型对数据进行分析处理。源头是输入input,输出结果就是output。

我们可以把整个计算过程想象成一个函数公式,有些是无比复杂的计算,比如物料需求计算,已经不能依靠手工计算,必须依赖于MRP系统。

还有一些简单的线性函数,比如计算运输费用,一般会有一个基础起步价,然后根据距离乘以每公里的收费标准,得出这趟的运费是多少。

在这过程中,A点和B点之间的距离是一个变量X,根据计算公式得出费用Y的值。如果我们获得的X值是错误的,那么计算出的Y值肯定也是错误的。输入的源头数据是错的,输出的结果必然也是没用的,这就是Garbage in, Garbage out的意思。

数据错误的情况在供应链日常工作中比比皆是,比如盘点的时候清点错了,输入了错误的库存数量,那么库存总数和金额就是错的。我列举了几种典型的错误类型,欢迎大家对号入座。

1.错误的数值

表格中的无效值,比如加了空格和句号。有时候数据还会出现负值,例如库存,它怎么会是负数呢?可能是扣账的时候有一笔收货没有入库,就出现了负值。

有些数值出现在了文本单元格里,自然就不能被统计到。还有合并单元格,会导致数据统计错误或缺失。

2.重复项

有些编号应该是唯一的,比如货物追踪号,一票货对应的是一个追踪号码,是一对一的关系。我们得检查有没有出现重复的情况。

3.人为操作错误

只要是手工输入的,就存在一定出错的概率。输入数据的人手指一滑,碰到了其他的键,就输错了。或是在排序的时候没有全部选中单元格,还有可能是在用公式的时候输错了。

4.其他

有些数据和大部分数据差距过大,比如在一个产品系列中,大多数产品单价在0.5元至10元之间,突然出现了一些超过100元的数据就很可疑。可能是系统里的报价前者是美元,后者是日元。

我们需要仔细地查看数据,每次可能都有新发现,那种感觉就像是哥伦布发现新大陆一样,总会给人惊喜。

二、如何发现错误数据

找出错误数据就像是在大海里捞针,如果没有合适的方法,可能看了半天数据只会看到满天的小星星。这里介绍几种方法供大家参考。

1.使用公式

首先要确保数据是有效的,因此要做一次的大排查,把数据中的无效值找出来。比如我们可以用求和或是查找的公式快速查看,根据公式结果判断是否有无效值。当一列数据求和结果为零时,说明这些数据格式不是数字。

如果想要把无效值抓出来,在Excel中可以用vlookup公式,如果返回值是“#N/A”,说明这个记录有问题,可能是输入错误,或是有空格。

2.使用目视化图表

用图表可以快速查看是否存在异常数据,比如用散点图和柱状图目测是否有特别离谱的数值。

在上图中,在Y轴上方有几个游离在大部队之外的数值需要重点看一看。

3.使用数据透视表

数据透视表汇总看异常,Excel中的pivot table也就是数据透视表是个很好用的工具。拖拽起来方便,而且容易理解。

上图中,从左边的原始表格汇总出来的数据存在两个错误点。首先是两个产品号ABC50535没有被汇总,说明其中一个的产品件号存在无效值。

其次,产品ABC35816汇总数量为零,但是左侧没有为零的数值,说明这个产品的库存数量单元格存在错误,可能是格式问题。

4.分析变异系数

使用变异系数反映数据离散程度,也叫离散系数。简单地说,在进行数据统计分析时,如果变异系数大于一定程度,比如大于1,意味着数据变化较大。这是进阶的内容,属于概率和统计分析的概念,具体就不在这里展开了。

三、有条理地清洗数据

找到数据问题点后,最后就是要做数据清理了。具体的方法有许多种,每个人都有自己擅长的方式。在这里我们就讨论一下通用性的原则。

1.先备份

以前我在打电脑游戏的时候,一般在和大BOSS决战之前都要先存档,万一打输了就调档,这样我就不会Game Over。

我们做数据清理之前也要先备份存档,万一没处理好,至少还有原始数据,否则后果不堪设想。

在做改动之前,我们一定要先把旧的文件存好,在Excel里另存或是复制。我们修改过什么,也要留下记录。

如果发现可疑数据,在清洗之前,需要和相关人员确认一下。比如价格汇率到底是美元还是日元,找到相关采购员问一下,确认后再进行修改。

盘点库存的时候发现可疑数据,先不要急着改,再去现场盘点一次,然后再根据实际情况修改。万一自己是错的,把数据改了岂不是太过草率?

2.做记录

一定要把我们发现的问题和采取的措施完完全全地记录下来。对于所有的改动,我们都要确保能解释清楚。

人的记忆力没那么好,好记性不如烂笔头,记录一下也没什么损失。以后万一有需要,我们还可以随时找到改动过的地方,撤销改动。所以说原始数据永远不要删,把它们复制一份保存好,把清理过后的数据用于以后的分析。

原始的数据绝没有我们想象中那样干净,需要花点时间进行清洗,然后才能用于下一步的整理、汇总和分析,并进一步提炼出洞察。我们要时刻对外部数据持有怀疑态度,警惕地观察一切不合理的数据。

免责声明:罗戈网对转载、分享、陈述、观点、图片、视频保持中立,目的仅在于传递更多信息,版权归原作者。如无意中侵犯了您的版权,请第一时间联系,核实后,我们将立即更正或删除有关内容,谢谢!
上一篇:成功实现供应链数字化转型的 5 个关键步骤!
下一篇:关系型数据库的主键和外键
罗戈订阅
周报、半月报、免费月报
1元 2元 5元 10元

感谢您的打赏

登录后才能发表评论

登录

相关文章

2024-11-08
2024-11-08
2024-11-08
2024-11-07
2024-11-07
2024-11-07
活动/直播 更多

【1116临沂、1123武汉】仓储管理实战·2024年全国线下训练营

  • 时间:2024-08-26 ~ 2024-10-27
  • 主办方:冯银川
  • 协办方:罗戈网

¥:1980.0元起

报告 更多

2024年9月物流行业月报-个人版

  • 作者:罗戈研究

¥:9.9元