编辑:李逸风
首次发布平台:风投高科网(www.VCtech.news)
近日,我们深入探讨了当前人工智能领域的关键技术难题——数据饥渴及其应对方案。作为新兴技术领域的重要解决方案,合成数据正逐步成为突破瓶颈的关键。在全球科技巨头布局合成数据的背景下,一家中国企业——光轮智能,凭借其尖端技术和创新理念引发了广泛关注。
在人工智能快速演进的当下,数据的价值变得前所未有的重要。然而,传统数据采集方式已然逼近其极限。据MIT等机构预测,人类生成的高质量真实数据将在未来2至8年内消耗殆尽,到2026年,互联网中可用的文本数据甚至可能耗尽。尤其是具身智能领域,对数据的需求呈指数级增长,对大模型的训练提出了全新挑战。在此背景下,合成数据(Synthetic Data),即以生成式AI技术模拟生成的高保真数据,正被视为根本性的解决方案。
这种模仿真实世界但并非人工创建的数据自1993年提出以来逐步发展,并因生成式AI的崛起而广受关注。相比真实数据,合成数据在成本效率、泛化能力、不涉及隐私等方面展现出巨大优势。Gartner预测,到2030年,合成数据将成为AI模型的主要训练来源,其市场规模预计超过86亿美元,并在自动驾驶、医疗健康、金融零售等多个领域发挥重要价值。
全球科技巨头正在积极布局合成数据市场。例如,英伟达推出Omniverse Replicator生成3D仿真数据,并收购相关公司,微软开源Synthetic Data Showcase工具用于医疗和金融场景,Meta利用合成数据优化代码生成能力。在国内,一批创新企业也正在全速推进,光轮智能便是其中的佼佼者。
成立于2023年的光轮智能专注于具身智能领域,将生成式AI与仿真技术相结合,构建大规模可交互、高保真的训练场景,为行业提供全新的数据解决方案。团队汇集了来自英伟达、Cruise等国际顶尖企业的多领域专家,现已服务包括英伟达、DeepMind、Figure、银河智元等国际领先客户及高校实验室。凭借创新的技术方向,光轮智能在成立仅两年多时间内完成五轮融资,投资方包括北京市人工智能产业基金、经纬创投、奇绩创坛等。
在与光轮智能技术生态负责人甘宇飞的深入对话中,他分享了企业关于合成数据的前沿见解。他表示,具身智能领域对合成数据的需求远超自动驾驶领域;后者主要用于优化交通场景,而前者是复杂多任务交互系统,需要处理包括触觉、柔性物体等多维度场景,数据量级更高,交互维度更丰富。此外,生成式AI与仿真技术的结合正逐步成为行业重要趋势,例如神经渲染技术可同时实现真实感和物理精度,对长尾场景及复杂任务的模拟具有决定性影响。
针对纯AI生成的数据不可行问题,甘宇飞指出,高质量AI模型需要人类示范和真实锚点的支持,以确保其与现实保持一致性。例如,光轮智能结合人类专家示范动作为合成数据来源,避免模型进入自我循环的训练崩溃。他进一步解释了企业在数据真实性验证中的多层评估方法,包括属性量化检查、主观判别评估以及效用验证测试,有效保障数据质量。
光轮智能的技术优势体现在两个方面。首先,其合成数据严格强调物理真实感,具备重量、触感等属性,能够精准模拟机器人在现实场景中的交互行为。其次,人类示范数据的引入提高了模型对复杂任务的认知能力。同时,其广泛的仿真场景覆盖从居家、商超到工业、农业等多环境应用,且根据地域特性进行高度定制化,使得其服务能够精准匹配客户需求。
目前,光轮智能已在行业内积累了丰富实践经验。其提供的数据资产帮助英伟达开源人形机器人模型显著提升性能,并支持智元发布公开数据集,为行业提供高质量训练资源。在国内外市场,光轮智能与多家顶尖机构建立合作,在具身智能研究领域持续深化。
然而,合成数据领域仍面临诸多挑战,包括数据标准化与柔体仿真、触觉仿真的技术攻坚。针对这些难点,光轮智能已制定行业标准,并投入大量资源提升仿真复杂交互场景的还原能力,为整个行业的技术突破贡献力量。
随着技术的逐步成熟,合成数据正成为驱动AI和具身智能发展的核心引擎。光轮智能的实践表明,在这一领域的早期布局将为行业未来发展打开无限可能,也为全球范围内的技术创新注入不竭动力。
[风投高科网出品] [合成数据在人工智能中的应用] [具身智能与生成式AI趋势] [光轮智能技术实践与融资动态] [数据饥渴解决方案与市场布局] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [黄金广告位]
📚 【精品资源】添加关注『风投高科网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》