应用AI之前，你必须了解的10项准备工作_库卡机器人维修_KUKA机械手保养

机器人资讯

技术教程

全日空展示Newme机器人可以替你

示教器维修

库卡机器人编程技巧之Frame数据

伺服电机维修

KUKA库卡机械手KR210伺服马达日

首页 > 机器人资讯 > 应用AI之前，你必须了解的10项准备工作

应用AI之前，你必须了解的10项准备工作

日期：2020-01-11 人气：来源:互联网

简介：首先，你知道自己想要预测或检测什么吗？你有足够的数据进行分析以建立预测模型吗？你有定义模型和训练模型所需的人员和工具吗？你已经有了统计或物理模型来作为一个预测基准吗？这篇文章对你的人工智能和机器学习项目进行分解，讨论其各个部分所带来的影……

首先，你知道自己想要预测或检测什么吗？你有足够的数据进行分析以建立预测模型吗？你有定义模型和训练模型所需的人员和工具吗？你已经有了统计或物理模型来作为一个预测基准吗？

这篇文章对你的人工智能和机器学习项目进行分解，讨论其各个部分所带来的影响，从而帮助你确定公司是否真正准备需要利用机器学习、深度学习或人工智能。

你拥有大量的数据

足够的相关数据是预测和特征识别的必要条件。有了它，你可能会成功；没有它，则注定失败。那么你需要多少数据呢？你尝试纳入模型的因素越多，所需要的数据就越多，无论你是在做普通的统计预测、机器学习还是深度学习。

以销售预测中常见的问题为例，比如，为了避免延迟交货，且不会占用太多金钱和现货货架空间，那么你下个月将在迈阿密出售多少海军蓝短袖衬衫？以及你需要在迈阿密店和亚特兰大仓库中储备多少存活？零售是强季节性行业，所以你需要从多年的历史数据中总结出有统计学意义的月度数据，从而修正月度销量波动，并建立一个年化趋势这还只是一个标准的时间序列分析。机器学习比统计模型需要更多的数据，而深度学习模型是它的好几倍。

统计模型会分析你的全国连锁店在5+年间的衬衫月销量，并使用这一数据来预测下个月的衬衫销量，可能有几十万（假设是30万）。然后你可以预测迈阿密的衬衫销量占全国销量的百分比（假设是3%），并单独预测出蓝色短袖上衣销量所占衬衫性销量的百分比（假设是1%）。该模型会指出，下个月蓝色短袖衬衫总销量的90%左右将售于迈阿密。你可以通过对比不同产品的年度同店销量来核实预测结果，同时分析它们之间的差异程度。

现在，假设你想要考虑一些外部因素，比如天气和流行趋势。短袖衬衫在热天或晴天时是不是比阴雨天时卖的更好？可能如此。你可以将历史气象数据纳入到你的模型中来做预测，虽然这样做有点笨拙，因为你需要做一个时间序列的统计模型，所以你可能会决定使用回归森林，顺便再试试其它7种回归机器学习模型，然后将每个模型测得的「cost」（一个归一化误差函数）与去年的实际结果相比较，从而找到最佳模型。

相比于去年同时段的海军蓝衬衫销量，下个月会更好还是更差？你可以看看海军蓝服装所有的月度销量，并预测出年度流行趋势，然后将其纳入到你的机器学习模型中。或者你可能需要来自时尚媒体方面的信息对模型进行手动校正。（「为以防万一，假设下月销量会提高20%。」）

也许你想建立一个深度神经网络来完善这个模型。你可能会发现，每添加一个隐藏层，就可以将回归误差提高几个百分点，直到某一时刻，再添加隐藏层也无济于事，此后收益递减。这种情况可能是因为模式中没有更多的特征可供识别，或者更可能的原因是，已经没有足够多的数据来支持模型的深入改进。

你有足够的数据科学家

可能你已经注意到，单个人需要独自建立上面讨论的所有模型。其实不是这样，建模型不仅仅是把数据倒在漏斗中然后按个按钮这么简单。不管你使用哪种工具尽管供应商可能对此会有要求，它需要经验、直觉、编程能力和良好的统计学背景，这样才能轻松驾驭机器学习，从而实现你的想法。

尤其是某些厂商往往声称，「任何人」或「任何业务角色」都可以使用商家预先训练过、可应用的机器学习模型。如果该模型正好可以解决手头的问题，这话不假，库卡机器人何服电机维修，比如将正式的魁北克法语文本翻译为英语，但更常见的情况是，现有的训练过的机器学习模型并不适用于你的数据。既然你已经训练了模型，你就需要数据分析师和数据科学家来指导训练，这更像是一门艺术，而非工程或科学。

在招聘数据科学家时，最奇怪的事情之一就是对工作岗位的要求，尤其是与受聘者的实际技能相比。广告上经常说「招聘：数据科学家。STEM博士。20年经验。」第一个怪事是，该领域的发展历程还未足20年。第二件怪事是，公司雇佣26岁的硕士毕业生也即除学术界外没有任何工作经验，与20年经验的要求相去甚远偏好那些已经有相关经验的人，因为他们担心高级人员太贵，尽管他们的要求是20年工作经验。是的，这很虚伪，且十之八九是非法的年龄歧视，但现实情况就是这个样子。

你跟踪或获得那些重要的因素

即使你有大量的数据和很多数据科学家，你也可能无法拥有包含所有相关变量的数据。以数据库术语的话说，你可能有大量的行，但缺少一些列。统计学上来说就是，你可能有无法解释的方差。

一些独立变量的测量（比如天气观测）很容易获得并被合并到数据集中，甚至可在事后被合并。其它一些变量的测量或获取过程可能较为困难，比如不切实际或成本高昂，即使你知道这些变量是什么。

举一个化学领域的例子。当你在铜上镀铅时，你可以测量氟硼酸镀液的温度和浓度，并记录阳极电压，但如果溶中没有适宜数量的肽链，那么你就不会得到很好的结果。如果你没有称量放入溶液中的肽链，就无法知道这种关键催化剂的剂量，那么你将无法使用其它变量来解释电镀质量的变化。

你有清理和转换数据的方法

数据几乎总是那么嘈杂。测量过程可能会丢失一个或多个值；单个值可能会超出范围，或与同一计量过程中的其它值不相称；电子测量可能由于电噪声而变得不准确；回答问题的人可能并不理解问题本身，或是编造答案；诸如此类。

在任何分析过程中，工业机器人维修，数据过滤步骤通常需要消耗最多设置时间是根据我的经验，它占到总分析时间的80%到90%。有些公司在它们的ETL（提取、转换和加载）过程中清理数据，这样分析师应该永远都看到不良数据点了，而其它公司则将数据与ETL（以及最后一步的转换步骤）过程放在数据仓库或数据湖中。这意味着，即使是最容易过滤掉的脏数据也会被保存下来，理论上，过滤器和转换步骤需要随着时间的推移而进行改进。

即使是过滤后的精确数据可能也需要在分析前做进一步的转换。与统计学方法一样，只有当每种可能的状态都有相似的行数时，机器学习模型的效果才最好，这意味着，那些最受欢迎的状态数可能会由于随机抽样而减少；同样，当所有变量的范围都被标准化后，机器学习模型才能达到最佳效果。

例如在微软的一篇博文中，微软小娜分析了特朗普和克林顿的竞选捐款，说明了准备机器学习数据集的方式：创建标签、处理数据、设计附加功能以及清洗数据。这种分析用SQL和R语言做了几个转换，以确定与克林顿或特朗普相关的各种委员会和竞选资金，并基于捐赠者的姓名来确定他们的性别，以及纠正拼写错误，并修复类之间的不平衡性（数据集中有94%都是克林顿的捐款，且大部分是小额捐款）。

你已经对数据做了统计分析

在分析数据和解决问题时，最应该避免的就是一个劲地往前冲。在你能够弄清楚发生的事情及其原因之前，你需要退后一步，看一看所有的变量及其相互之间的关系。

免责声明：本网部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题，请立即联系网站所有人，我们会予以更改或删除相关文章，保证您的权利。

400-878-2528

应用AI之前，你必须了解的10项准备工作

相关阅读：