标注数据集

标注数据集支持图片、视频、文本、音频、表格、大语言模型或文生图模型等数据类型。

  1. 图片支持 BMP、JPG、PNG 三种格式;

  2. 视频支持格式参见 视频文件格式

  3. 文本支持 txt 格式;

  4. 音频支持 flac、mp3、wav、m4a 四种格式;

  5. 表格支持 csv、tsv、txt、del、parquet 五种格式;

  6. 大语言模型支持 txt、json、xlsx、csv 四种格式,其中预训练支持 txt 格式,大语言模型微调支持 json、xlsx、csv 三种格式;

  7. 文生图模型支持 BMP、JPG、PNG 三种格式。

创建标注数据集

创建之前,需要先创建 标注规则集

  1. 左侧功能栏选择“标注数据->标注数据集”;

  2. 单击右上角“添加标注数据集”;

  3. 按照页面提示配置参数:

    表 90 添加标注数据集参数

    名称

    必填项

    说明

    名称

    存储集群

    数据类型

    支持“图像”、“视频”、“文本”、“音频”、“表格”、“大语言模型”、“文生图模型”

    5.1 版本新增: 支持配置数据类型,应用场景

    应用场景

    根据数据类型,选择应用场景

    标注规则集

    标注时需要遵守的规则,选择后不可更改,部分文本、表格、大语言模型不需

    要,其他数据类型必填

    大小

    单位为 GB

    不适用于对象存储类型存储集群

    关联对象存储

    仅适用于对象存储类型存储集群

    他人访问权限

    具体参见 他人访问权限

    描述

    标签

  4. 单击“添加”。

../../_images/create_annotation_dataset.png

图 127 创建标注数据集

合并标注数据集

  1. 左侧功能栏选择“标注数据->标注数据集”;

  2. 单击右上角“合并数据集”;

  3. 按照页面提示配置参数:

    表 91 合并标注数据集参数

    名称

    必填项

    说明

    标注数据集名称

    存储集群

    类型

    可选“图片”或“视频”或“音频”

    标注规则集

    标注时需要遵守的规则,选择的数据集小于两个时可更改

    选择多个标注数据集

    选择规则集后可选,添加数量大于一个

    他人访问权限

    描述

    标签

  4. 单击“添加”。

../../_images/merge_annotation_dataset.png

图 128 合并标注数据集

搜索标注数据集

  1. 左侧功能栏选择“标注数据->标注数据集”;

  2. 单击左上角搜索框;

  3. 在下拉列表中,可基于“名称”和“状态”搜索标注数据集。

删除标注数据集

  1. 左侧功能栏选择“标注数据->标注数据集”;

  2. 单个删除:查找需要删除的标注数据集,单击该标注数据集的“操作”按钮,在下拉列表中,单击“删除”;

  3. 批量删除:单击表格右上角“编辑”按钮,勾选多个需要删除的标注数据集,单击表格右上角“删除”按钮;

  4. 单击“确认删除”。

查看标注数据集详情

  1. 左侧功能栏选择“标注数据->标注数据集”;

  2. 单击标注数据集名称会进入详情页。

在标注数据集的详情页,可使用各项子功能。不同格式的数据集支持的功能列表为:

表 92 标注数据集支持的功能

支持功能

图片

视频

音频

说明

版本管理

标注数据集版本

文件列表

管理存储卷文件

导入标注文件

导入标注文件

同步新数据

同步新数据

视频抽帧

视频抽帧

智能标注

智能标注

团队标注

团队标注任务

数据分析

数据分析

导入标注文件

2.3 版本新增: 导入标注文件到标注数据集中。

导出的标注文件可以再次导入。支持从本地或者数据集中导入标注文件。

导入时,原有的标注会被覆盖。

  • 视频数据集

    仅支持 caip 文件格式。格式需符合 标注格式,并将 dataset.json 信息文件与每个视频对应的 json 标注文件一起打包成一份 zip 压缩文件,并上传此 zip 文件。

  • 图片数据集

    支持 caip , voc , coco 文件格式。

    1. caip 格式参见 标注格式。本地上传或从数据集中选择包含全部标注数据的单个 json 文件。

    2. voc 格式参见 VOC 格式。将所有 voc 标注文件打包成一份 zip 压缩文件,并本地上传或从数据集中选择此 zip 文件。

    3. coco 格式参见 COCO 格式。本地上传或从数据集中选择单个 coco 格式的 json 文件。

../../_images/upload_annotation_dataset.png

图 129 导入标注文件到标注数据集

同步新数据

在标注之前,需要在 文件列表 标签页上传图片或视频。并将数据同步到 标注工作区 。 同步之后,才可进行标注。

  • 图片数据集

    上传文件后,可单击“同步新数据”按钮更新 标注工作区 的文件列表。

    如果未同步,新增的文件不会自动出现在文件列表中; 如果图片被删除,文件列表也不会自动更新,在同步之前,标注时会提示“图片已删除”。

    同步时,会递归扫描子目录中(最大支持五层子目录)的图片,并更新 标注工作区 的文件列表。 如添加新的文件条目,删除不存在的文件条目。

    ../../_images/sync_image_dataset.png

    图 130 同步图片标注数据集的新数据

  • 视频数据集

    上传文件后,需要先进行 视频抽帧 ,再同步新数据。

    同步时,会使用根目录下的 manifest.json 文件更新 标注工作区 的文件列表。

    manifest.json 文件由 视频抽帧 任务生成。

    ../../_images/sync_video_dataset.png

    图 131 同步视频标注数据集的新数据

  • 音频数据集

    上传文件后,可单击“同步新数据”按钮更新 标注工作区 的文件列表。

    如果未同步,新增的文件不会自动出现在文件列表中; 如果音频被删除,文件列表也不会自动更新,在同步之前,无法进行标注。

    同步时,会递归扫描子目录中(最大支持五层子目录)的音频,并更新 标注工作区 的文件列表。 如添加新的文件条目,删除不存在的文件条目。

他人访问权限

3.8 版本新增: 支持为标注数据集配置他人访问权限。

创建标注数据集时,可以限制同项目内其他用户的访问权限,包括:“可读写”、“只读”和“不可读写”。 若管理员关闭共享权限,则他人访问权限只能为“不可读写”。

不同权限支持的操作如下:

表 93 他人支持的操作

可读写

只读

不可读写

查看详情

X

编辑

X

X

删除

X

X

下载

X

上传

X

X

创建文件夹

X

X

删除文件

X

X

切换版本

X

X

导出其他格式

X

X

标注

X

X

发布新版本

X

X

导入标注文件

X

X

创建/删除智能标注

X

X

查看智能标注任务

X

同步新数据

X

X

创建/删除团队标注任务

X

X

创建数据分析

X

X

查看数据分析

X

验收标注

X

X

编辑/删除验收标注

X

X

挂载标注数据集(只读)

X

挂载标注数据集(读写)

X

X