合成数据:到2024年60%用于人工智能和分析决策的数据将是算法合成生成的


 Gartner 预测(Fake It to Make It: Companies Beef Up AI Models with Synthetic Data)说:“到 2024 年,60% 的数据用于开发 AI 和分析项目将综合产生”。这是一个非常重要的预测,因为合成数据有很多用途。
合成数据可以帮助您应对以下情况:

  • 基于历史数据的估计或预测模型不再有效
  • 基于过去经验的假设失败
  • 由于现实世界数据集的差距,算法无法可靠地对所有可能的事件进行建模

合成数据将使营利性公司能够共享数据,特别是在使用差异化私有合成数据时,通过消除与隐私相关的许可问题的摩擦,并允许在预生产管道中进行更快速的技术开发。
此外,合成数据可用于支持太小或数据集严重不平衡的数据集。这将帮助组织构建更复杂的机器学习功能,这些功能通常非常需要数据。然而,这些好处不仅有助于营利部门,而且可以极大地影响公共部门。
  
真实数据问题
收集真实数据既昂贵又困难,而正确地收集数据则更难。定义收集的信息的粒度、节奏和类型本身就是一项全职工作。很少有非营利组织有足够的预算或员工带宽来致力于强大的内部数据收集和管理系统。不可避免地,更接近非营利组织核心使命的其他活动几乎总是优先于这些艰巨的任务,尤其是当投资回报难以计算时。
这就是合成数据可以大放异彩的地方。如果非营利组织收集了足够的数据(该数量未知,但少于完整的数据收集运行),那么他们可能能够训练合成模型来增加相对较小的样本。因为如果有足够的真实数据来源可以使用,即使只有一点点也可以转化为无限量的合成数据!通过扩展数据集,从而更全面地了解他们的战略计划和每个人的表现,非营利组织可以就在哪里分配稀缺资源做出更明智的选择,以便他们可以最大限度地发挥其成果。
英国的一些公务员已经开始倡导使用合成数据来改善政府对数据的使用。例如,在最近由几家公共机构主办的公务员竞赛期间提出的 200 多个想法中,合成数据被评为最佳之一,作为可用于公共部门的工具,除其他外,“......通过工作和养老金部、英国税务和海关以及英国签证和移民部之间更丰富的数据交换来检测福利和税务欺诈。
 
合成数据通常被视为质量较低的替代品,仅当真实数据不便获取、价格昂贵或受监管限制时才有用。这错过了合成数据的真正潜力。事实是,如果没有合成数据,您将无法构建高质量、高价值的 AI 模型。
  
重新决策
企业高层决策不再仅仅按照企业内部的职能部门进行。它发生在跨多个社区的协作路径上,这些社区基于正在发生的事情、相关结果和要做出的决定而参与,其中人与机器之间的协作越来越多。  
根据 Gartner 最近的一项调查,65% 的受访者同意决策已经变得更加 复杂。决策需要变得更加联系、上下文和连续。它需要重新设计以反映新的复杂性并利用新的机会和能力。IT 领导者, 包括数据和分析领导者在内,他们在重新设计决策和帮助业务领导者取得更大成功方面发挥着关键作用。 
如何做出决策是数字业务的核心,而数据和分析是如何做出决策的核心:要在当今的数字经济中取得成功,组织必须采取以下数据驱动的决策: 
  • 由外部事件通知
  • 通过集体知识丰富
  • 可重复使用公共学习
  • 利用并建立在公共学习的基础上
  • 快速适应新场景上下文

传统企业不是这样运作的。许多决策不是使用来自内部和外部不同来源的数据和见解的注入做出的,更不用说信息流、机器增强的辅助和协作知识共享的丰富。尽管对技术进行了大量投资,并且 CEO 和董事会设定了首要任务,但我们大部分数据驱动的决策能力仍然致力于功能自动化和运营理解,而不是像整个组织范围内的数字神经系统那样构建感知和响应能力系统。 
然而,寻求实现数字业务承诺的数据和分析领导者,包括首席数据官 (CDO)、首席信息官和其他数据和分析领导者,面临着一系列障碍。数字化难以实现和维持。它需要对现有的数据和分析实践进行根本性的改变,其中许多已经成功地实现了组织的先前目标。
这实质上意味着数据和分析领导者及其业务同行需要重新设计他们的决策方式。数字化还需要不同的数据和分析策略、文化、技能、治理实践、组织模式和文化。因此,数字化的前景是巨大的,但数据和分析领导者面临的挑战也是如此。  
  
合成数据有助于重新设计决策
 11 月发表在《自然》杂志上一项研究的作者, 该研究表明使用合成数据替代真实医疗保健数据的有效性。伦敦布鲁内尔大学教授艾伦·塔克 (Allan Tucker) 说:“合成数据为医疗保健提供的主要优势是大大降低了隐私风险,这些风险已经给许多项目[和]开放医疗保健数据以研究和开发新技术带来了麻烦。” 
“合成数据技术”是通过算法(从现实病历中采集信息)创建人工患者群体,有可能在不损害隐私的情况下加速创新,以色列示巴医疗中心的重症监护冠状病毒科使用合成数据来帮助规划 Covid-19 患者的治疗。
通过司法使用合成数据可以帮助增加与使用新数据源(例如小而广的数据)相关的新努力;请参阅2021 年数据和分析的主要趋势:从大数据到小数据和宽数据
这些对于医院实现DRG支付有帮助。