一、数据团队业务的痛点
过去一年中,我加入美图数据团队,虽然我的职位是开发,但平时也主动和leader以及同事聊到目前数据上的业务流程。先来说说美图公司的数据业务吧。
1、数据业务
即然是业务,就有甲方与乙方。乙方为甲方服务。数据业务中,算法人员是甲方,算法同学在做AI相关的工作,跑模型需要数据,此时就会向数据团队提出需求,eg:需要1w张婴儿的图片。提到任务后数据团队的工作可分为三部分
- 数据采集:主要使用python等网络爬虫技术
- 数据管理:数据集的管理,包括采集完的数据,标注过滤好的数据
- 数据标注:以外包模式将标注任务分配出去

2、数据业务的痛点

- 数据集管理琐碎:目前对采集完、标注完的数据都是以目录+文件形式保存在镜像服务器中。当数据团队接手项目多时,需要花较长时间找到对应数据集
- 数据标注工具多样,学习成本高:目前团队有超过十种标注工具(由Windows平台部进行开必),工具运行在Windows系统。工具过多,而且工具的用户体验不好(工具界面类似下图Windows标注工具)。工具的学习成本挺高,和同事交流,像人脸点的标注,一般需要3~5才能熟练掌握。
- 数据标注任务分配过于封闭。目前任务的分配是通过QQ、微信下发给外包组长,包括时间点,任务量(内部需求如图2.2)。缺点QQ、微信下发task具有封闭性,团队其它成员无法快速了解标注任务目前的进度。
- 算法产品需求文档要不明确导致沟通成本加大。内部需求文档如图2.3. 目前的流程是算法把需求文档给数据团队,数据团队再将需求下发给外包leader。中间经过两层沟通,一旦算法同学给的需求标准不明确,出现歧义,出现的隐性的沟通成本是巨大的。



3、针对痛点的解决方案
我们希望有一个数据标注平台的产品,来解决团队业务上的痛点,提高工作效率。该产品主要的功能模块如图所示。

- 为了方便数据管理,希望抛弃旧的‘本地保存数据’模式,而是将数据保存到数据库。直接在产品进行增删改查等业务操作。
- 产品具有多种标注方式,只需在工具栏切换即可(目前业务有画点、框、polyline、polygon、bitmap、固定点数的keypoints等)
- 数据团队成员在给外包分配任务时,同团队的成员应是类似Admin权限,如看到所有的task流当前进度。外包leader、外包成员应只能看到一部分数据集(即数据团队分配的数据集)。需将权限分清,更深入权限系统还需后继进行竞品分析。
- 为了减少沟通成本,可以考虑添加实时沟通系统。类似墨刀,如图

二、确定目标用户
1、用户类别
以当前团队的业务来看,产品的用户可大致分为三类:

2、需求调研
腾讯问卷:https://wj.qq.com/s2/3035254/b82a/
3、竞品分析
前程明亮:数据标注平台—竞品分析zhuanlan.zhihu.com