车东西(公众号:chedongxi)
作者 | 迩言
编辑 | Juice
(相关资料图)
今日,星尘数据在春季媒体开放日上正式上线自动化标注平台Rosetta3.0平台。
星尘数据创始人、CEO章磊详细介绍了自动化标注平台Rosetta的几大亮点,新平台在自动化标注和数据闭环上成果显著,数据处理准确度接近100%。
此外,在发布会上章磊提出了标注行业认知天梯的理论。
章磊表示,初级认知是标注行业是“人力工厂”,服务商用相对初级的标注工具、项目管理和海量人力就能干活,招标时低价者中标,存在交付风险。
而中级认知是对项目管理的难度和标注工具的复杂度有一定认知,投人工具研发和项目管理成本,研发周期长,管理难度大,数据迭代效率低。
高级认知是重视平台的技术实力,使用高度自动化的标注平台,且与数据服务商一起迭代数据闭环和数据策略。
星尘数据也在寒冬中拿下了巨额融资,目前已覆盖大部分头部自动驾驶客户。
星尘数据的自动化标注平台Rosetta在算法种类算法效率、算法接人能力、算法交互能力等方面均具优势,其数据闭环系统打通数据采集标注、数据预处理、自动化质检、人工质检、多轮质检、客户验收系统、数据管理、数据检索、数据可视化、场景挖掘等全链路,同时为客户提供数据策略专家服务,能够支持人机交互、主动学习、强化学习等主流数据策略。
Rosetta3.0提升了算法加持能力,新增20+自研算法,点云标注效率较纯人工标注提升5倍+,支持机器人标注及质检,支持交互式标注以及算法实时反馈;增强了自动驾驶数据标注能力,3D渲染50帧/秒以上,支持超长连续帧2000+流畅标注,支持2000W点点云平滑标注,支持BEV标注、3D重建标注、4D标注、毫米波标注。
Rosetta3.0的优势
章磊表示,Rosetta3.0能达到60%的自动化程度,每年数据处理量超过2亿,数据处理的准确度达到99.9%以上,服务的客户数量也突破了4位数,达到了1000多家。
除Rosseta数据标注平台外,星尘数据还为客户提供Rosseta标注软件基础版、Rosseta标注软件高级版、Rosseta标注软件旗舰版、RossetaApp、Rosseta独立标注工具、开放平台OpenAPI等众多产品形态,支持私有化部署和定制化软件,满足客户多样性需求。
星尘数据产品矩阵
在发布会上,章磊还介绍了星尘数据的数据闭环解决方案,这是Rosetta3.0平台的一大亮点。章磊表示,全流程闭环式AI数据系统将成为主流,星尘数据为此提早进行研发布局。
章磊介绍星尘数据数据闭环方案
在一个完整的数据闭环训练中,客户可使用星尘提供的离线数据包进行基础版模型训练,星尘标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代的效果,动态检索不确定性最大、信息量最大、损失最大、稀疏场景等有效数据。
几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。
以ChatGPT语言模型为例,通过星尘的Rosetta3.0数据标注系统,客户可以将模型快速接入系统,通过API(程序编程接口)实时将结果显示在标注平台上,星尘专属基地的NLP(自然语言处理)标注员可以快速给出反馈。同时,奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现难例和缺陷。该解决方案目前已进入与某深度客户的POC(概念验证)测试环节。
章磊表示,未来星尘数据将专注AI数据服务,通过Autolabeling技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。
近年来,随着人工智能技术的发展,数据标注行业成为一个新兴产业,在短短数年间迎来了爆发式的发展。根据GrandViewResearch的数据,全球数据标注市场未来十年将以年复合增长率约25%的速度增长,市场规模将达百亿美金。
星尘数据成立于2017年,总部位于北京,2022年底公布A轮融资5000万人民币。星尘数据目前年营收达上千万,增速为50%~100%。
此外,星尘数据目前覆盖90%头部自动驾驶客户,还服务智能家居、智慧城市、智能机器人、智慧医疗、智慧教育、智能零售、智能遥感、智慧金融等众多数据场景。
章磊介绍星尘数据未来规划
在发布会最后,章磊表示,最快三年星尘数据将完成IPO!
星尘数据新平台Rosetta3.0的推出,证明了其先进的数据标注能力。
目前,随着全行业向通用人工智能方向不断前进,行业对既懂数据,还能解决客户问题的数据策略专家有着迫切需求,因此像星尘数据这样专业的第三方数据标注企业也拥有了广阔生存空间。
希望星尘数据能够持续开发高效的自动化标注工具,赋能AI企业算法迭代和数据闭环。