首页 > 机器人资讯 > 应用AI之前,你必须了解的10项准备工作

应用AI之前,你必须了解的10项准备工作

日期:2020-01-11   人气:  来源:互联网
简介:首先,你知道自己想要预测或检测什么吗?你有足够的数据进行分析以建立预测模型吗?你有定义模型和训练模型所需的人员和工具吗?你已经有了统计或物理模型来作为一个预测基准吗? 这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影……

首先,你知道自己想要预测或检测什么吗?你有足够的数据进行分析以建立预测模型吗?你有定义模型和训练模型所需的人员和工具吗?你已经有了统计或物理模型来作为一个预测基准吗?

这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备需要利用机器学习、深度学习或人工智能。

你拥有大量的数据

足够的相关数据是预测和特征识别的必要条件。有了它,你可能会成功;没有它,则注定失败。那么你需要多少数据呢?你尝试纳入模型的因素越多,所需要的数据就越多,无论你是在做普通的统计预测、机器学习还是深度学习。

以销售预测中常见的问题为例,比如,为了避免延迟交货,且不会占用太多金钱和现货货架空间,那么你下个月将在迈阿密出售多少海军蓝短袖衬衫?以及你需要在迈阿密店和亚特兰大仓库中储备多少存活?零售是强季节性行业,所以你需要从多年的历史数据中总结出有统计学意义的月度数据,从而修正月度销量波动,并建立一个年化趋势这还只是一个标准的时间序列分析。机器学习比统计模型需要更多的数据,而深度学习模型是它的好几倍。

统计模型会分析你的全国连锁店在5+年间的衬衫月销量,并使用这一数据来预测下个月的衬衫销量,可能有几十万(假设是30万)。然后你可以预测迈阿密的衬衫销量占全国销量的百分比(假设是3%),并单独预测出蓝色短袖上衣销量所占衬衫性销量的百分比(假设是1%)。该模型会指出,下个月蓝色短袖衬衫总销量的90%左右将售于迈阿密。你可以通过对比不同产品的年度同店销量来核实预测结果,同时分析它们之间的差异程度。

现在,假设你想要考虑一些外部因素,比如天气和流行趋势。短袖衬衫在热天或晴天时是不是比阴雨天时卖的更好?可能如此。你可以将历史气象数据纳入到你的模型中来做预测,虽然这样做有点笨拙,因为你需要做一个时间序列的统计模型,所以你可能会决定使用回归森林,顺便再试试其它7种回归机器学习模型,然后将每个模型测得的「cost」(一个归一化误差函数)与去年的实际结果相比较,从而找到最佳模型。

相比于去年同时段的海军蓝衬衫销量,下个月会更好还是更差?你可以看看海军蓝服装所有的月度销量,并预测出年度流行趋势,然后将其纳入到你的机器学习模型中。或者你可能需要来自时尚媒体方面的信息对模型进行手动校正。(「为以防万一,假设下月销量会提高20%。」)

也许你想建立一个深度神经网络来完善这个模型。你可能会发现,每添加一个隐藏层,就可以将回归误差提高几个百分点,直到某一时刻,再添加隐藏层也无济于事,此后收益递减。这种情况可能是因为模式中没有更多的特征可供识别,或者更可能的原因是,已经没有足够多的数据来支持模型的深入改进。

你有足够的数据科学家

可能你已经注意到,单个人需要独自建立上面讨论的所有模型。其实不是这样,建模型不仅仅是把数据倒在漏斗中然后按个按钮这么简单。不管你使用哪种工具尽管供应商可能对此会有要求,它需要经验、直觉、编程能力和良好的统计学背景,这样才能轻松驾驭机器学习,从而实现你的想法。

尤其是某些厂商往往声称,「任何人」或「任何业务角色」都可以使用商家预先训练过、可应用的机器学习模型。如果该模型正好可以解决手头的问题,这话不假,库卡机器人何服电机维修,比如将正式的魁北克法语文本翻译为英语,但更常见的情况是,现有的训练过的机器学习模型并不适用于你的数据。既然你已经训练了模型,你就需要数据分析师和数据科学家来指导训练,这更像是一门艺术,而非工程或科学。

在招聘数据科学家时,最奇怪的事情之一就是对工作岗位的要求,尤其是与受聘者的实际技能相比。广告上经常说「招聘:数据科学家。STEM博士。20年经验。」第一个怪事是,该领域的发展历程还未足20年。第二件怪事是,公司雇佣26岁的硕士毕业生也即除学术界外没有任何工作经验,与20年经验的要求相去甚远偏好那些已经有相关经验的人,因为他们担心高级人员太贵,尽管他们的要求是20年工作经验。是的,这很虚伪,且十之八九是非法的年龄歧视,但现实情况就是这个样子。

你跟踪或获得那些重要的因素

即使你有大量的数据和很多数据科学家,你也可能无法拥有包含所有相关变量的数据。以数据库术语的话说,你可能有大量的行,但缺少一些列。统计学上来说就是,你可能有无法解释的方差。

一些独立变量的测量(比如天气观测)很容易获得并被合并到数据集中,甚至可在事后被合并。其它一些变量的测量或获取过程可能较为困难,比如不切实际或成本高昂,即使你知道这些变量是什么。

举一个化学领域的例子。当你在铜上镀铅时,你可以测量氟硼酸镀液的温度和浓度,并记录阳极电压,但如果溶中没有适宜数量的肽链,那么你就不会得到很好的结果。如果你没有称量放入溶液中的肽链,就无法知道这种关键催化剂的剂量,那么你将无法使用其它变量来解释电镀质量的变化。

你有清理和转换数据的方法

数据几乎总是那么嘈杂。测量过程可能会丢失一个或多个值;单个值可能会超出范围,或与同一计量过程中的其它值不相称;电子测量可能由于电噪声而变得不准确;回答问题的人可能并不理解问题本身,或是编造答案;诸如此类。

在任何分析过程中,工业机器人维修,数据过滤步骤通常需要消耗最多设置时间是根据我的经验,它占到总分析时间的80%到90%。有些公司在它们的ETL(提取、转换和加载)过程中清理数据,这样分析师应该永远都看到不良数据点了,而其它公司则将数据与ETL(以及最后一步的转换步骤)过程放在数据仓库或数据湖中。这意味着,即使是最容易过滤掉的脏数据也会被保存下来,理论上,过滤器和转换步骤需要随着时间的推移而进行改进。

即使是过滤后的精确数据可能也需要在分析前做进一步的转换。与统计学方法一样,只有当每种可能的状态都有相似的行数时,机器学习模型的效果才最好,这意味着,那些最受欢迎的状态数可能会由于随机抽样而减少;同样,当所有变量的范围都被标准化后,机器学习模型才能达到最佳效果。

例如在微软的一篇博文中,微软小娜分析了特朗普和克林顿的竞选捐款,说明了准备机器学习数据集的方式:创建标签、处理数据、设计附加功能以及清洗数据。这种分析用SQL和R语言做了几个转换,以确定与克林顿或特朗普相关的各种委员会和竞选资金,并基于捐赠者的姓名来确定他们的性别,以及纠正拼写错误,并修复类之间的不平衡性(数据集中有94%都是克林顿的捐款,且大部分是小额捐款)。

你已经对数据做了统计分析

在分析数据和解决问题时,最应该避免的就是一个劲地往前冲。在你能够弄清楚发生的事情及其原因之前,你需要退后一步,看一看所有的变量及其相互之间的关系。

免责声明:本网部分文章和信息来源于互联网,本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题,请立即联系网站所有人,我们会予以更改或删除相关文章,保证您的权利。