labelme标注需要精确标注吗_国内需要一个数据标注平台

本文探讨了美图公司数据团队在业务流程中的痛点,包括数据集管理困难、标注工具繁多且学习成本高、任务分配封闭及需求文档不明确等问题,并提出了建立数据标注平台的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据团队业务的痛点

过去一年中,我加入美图数据团队,虽然我的职位是开发,但平时也主动和leader以及同事聊到目前数据上的业务流程。先来说说美图公司的数据业务吧。

1、数据业务

即然是业务,就有甲方与乙方。乙方为甲方服务。数据业务中,算法人员是甲方,算法同学在做AI相关的工作,跑模型需要数据,此时就会向数据团队提出需求,eg:需要1w张婴儿的图片。提到任务后数据团队的工作可分为三部分

  • 数据采集:主要使用python等网络爬虫技术
  • 数据管理:数据集的管理,包括采集完的数据,标注过滤好的数据
  • 数据标注:以外包模式将标注任务分配出去

ae6b79b58c762125e4f8fa6b8b2d7fb9.png
数据团队业务

2、数据业务的痛点

165eb51590fc76d6835198c6d9fd69cc.png
数据业务脑图
  • 数据集管理琐碎:目前对采集完、标注完的数据都是以目录+文件形式保存在镜像服务器中。当数据团队接手项目多时,需要花较长时间找到对应数据集
  • 数据标注工具多样,学习成本高:目前团队有超过十种标注工具(由Windows平台部进行开必),工具运行在Windows系统。工具过多,而且工具的用户体验不好(工具界面类似下图Windows标注工具)。工具的学习成本挺高,和同事交流,像人脸点的标注,一般需要3~5才能熟练掌握。
  • 数据标注任务分配过于封闭。目前任务的分配是通过QQ、微信下发给外包组长,包括时间点,任务量(内部需求如图2.2)。缺点QQ、微信下发task具有封闭性,团队其它成员无法快速了解标注任务目前的进度。
  • 算法产品需求文档要不明确导致沟通成本加大。内部需求文档如图2.3. 目前的流程是算法把需求文档给数据团队,数据团队再将需求下发给外包leader。中间经过两层沟通,一旦算法同学给的需求标准不明确,出现歧义,出现的隐性的沟通成本是巨大的。

2e3f30b0312bfc9053ab82700510ddf0.png
Windows标注工具

2f609c26afe16317eb2725b3dcafdf0d.png
对接外包下发任务

a65991d12bbe5cfe5d03e1eec74299da.png
算法需求标准

3、针对痛点的解决方案

我们希望有一个数据标注平台的产品,来解决团队业务上的痛点,提高工作效率。该产品主要的功能模块如图所示。

efd67f494ab18fad2566b67000b2acd0.png
数据标注平台功能模块
  • 为了方便数据管理,希望抛弃旧的‘本地保存数据’模式,而是将数据保存到数据库。直接在产品进行增删改查等业务操作。
  • 产品具有多种标注方式,只需在工具栏切换即可(目前业务有画点、框、polyline、polygon、bitmap、固定点数的keypoints等)
  • 数据团队成员在给外包分配任务时,同团队的成员应是类似Admin权限,如看到所有的task流当前进度。外包leader、外包成员应只能看到一部分数据集(即数据团队分配的数据集)。需将权限分清,更深入权限系统还需后继进行竞品分析。
  • 为了减少沟通成本,可以考虑添加实时沟通系统。类似墨刀,如图

72bea7169d37f61a494c7ab5aceabb25.png
实时沟通模块

二、确定目标用户

1、用户类别

以当前团队的业务来看,产品的用户可大致分为三类:

3ad602c0b215f8319b857e99c94b0e72.png
目标用户分类

2、需求调研

腾讯问卷:https://wj.qq.com/s2/3035254/b82a/

3、竞品分析

前程明亮:数据标注平台—竞品分析​zhuanlan.zhihu.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值