合成和模拟数据将在数据产业迎来浪潮

发布时间:2020-07-03

阅读量:1294

2018年,在微软(Microsoft Build)一架无人机飞过管道,检查管道是否有泄漏或其他损坏。值得注意的是,无人机的视觉检查模型使用实际数据和模拟数据进行了训练。使用合成数据帮助机器学习模型了解异常值,让微软的研究人员能够更快地训练这款模型,且不需要像其他情况下那样在进行数据采集飞行上花费很多。

合成和模拟数据将在数据产业迎来浪潮

如今,这项技术终于开始普及了。今年4月,一家初创公司为其合成传感器数据筹集到337万美元,而另一家初创公司发表了一篇关于如何使用模拟数据训练模型来识别机场跑道上的飞机的论文。

谈到机器学习项目时,壳牌首席数据科学家丹·杰文斯对使用模拟数据感到非常兴奋,因为它有助于构建模型的同时还可以检测一些少见的问题。他说:“我认为这是一种非常有趣的方法,可以获取我们正在努力解决的有关边缘案例的信息。尽管我们有很多数据,但同时我们也面临重大问题是,那就是,我们通常对于要发现的问题,我们只有很少的例子来支持。

在石油行业,工厂和管道的腐蚀是巨大的挑战,因为它可能导致灾难性的故障。企业会小心翼翼不让任何东西腐蚀管道,但这也意味着机器学习模型不能用于现实世界的腐蚀实例。因此,他们使用合成数据来提供帮助。例如,壳牌公司也在使用合成数据,试图解决人们在加油站吸烟的问题。因为摄像机并不总能捕捉到吸烟者的画面,有时候离得太远或者没有面对摄像头,所以在这个研究中并没有很多现成的案例;因此,公司努力将模拟合成数据与真实数据结合起来,建立计算机视觉模型。“我们感兴趣的几乎总是‘边缘案例’,不是一般的标准,而且容易检测到与标准图案不符的边缘,很难检测出想要的具体内容。”

与此同时,另外一家AI公司也在试图了解更多关于合成数据的准确性。该公司发表的论文《稀有飞机:合成数据起飞》阐述了研究人员如何将停放在机场的飞机的卫星图像与机器生成的合成数据相结合。当仅使用合成数据时,该模型的准确率只有55%左右,而当仅使用真实数据时准确率则跃升至73%。但是通过将训练样本的10%作为真实数据,其余部分使用合成数据,模型的准确率达到了69%。

人工智能专家认为合成数据将成为大生意。使用这些数据的公司需要考虑到他们的假数据可能会扭曲模型,但如果他们能做到这一点,他们就能以比依赖真实数据更快、更低的成本获得强健的模型。

因此,即使物联网传感器正在释放数拍字节级别的数据,也不可能对所有数据进行注释并将其用于训练模型。因为这些数据可能并不是你真正想要计算机寻找的情况。换言之,预计合成和模拟数据的浪潮将继续到来。