数据处理

4.1 版本新增: 数据处理功能。

数据处理功能提供清洗和准备数据。用户可以使用算法卷或 Git 仓库和自定义运行指令,运行数据处理。也可选择预置算法,运行数据处理,包括删除重复的数据、拆分数据、增广数据等。

创建数据处理

操作步骤

  1. 左侧功能栏选择“数据管理->数据处理”;

  2. 单击右上角“创建数据处理”;

  3. 按照页面提示配置参数,分为两种创建方式:

    1. 通过自定义算法和运行指令创建

      表 110 通过自定义算法和运行指令创建数据处理参数

      参数

      必填项

      说明

      数据处理名称

      他人访问权限

      具体参见 他人访问权限

      算法

      选择 “算法卷” 或 “Git 仓库”,参考 准备数据和脚本

      输入

      可选“标注数据集”、“我的数据集”或“数据集收藏”,可添加多个

      输出

      可选“标注数据集”或“我的数据集”,可添加多个

      运行命令

      生成数据处理的命令与参数,参考 准备数据和脚本

      单节点规格

      数据处理的算力规格

      节点名称

      指定数据处理可运行的节点,不可与“驱动版本”同时指定

      驱动版本

      选择 MLU 或 GPU 规格时可用

      镜像

      镜像适用范围需包含“数据处理”

      镜像适用板卡类型需和单节点规格一致

      节点数

      目前暂不支持修改,只支持 1 个

    2. 通过预置算法创建,支持的预置算法参见:支持预置算法说明 章节

      表 111 通过预置算法创建数据处理参数

      参数

      必填项

      说明

      数据处理名称

      他人访问权限

      具体参见 他人访问权限

      算法

      选择 “预置算法”。如果预置算法有参数,按参数描述填写参数值

      任务类型

      可选“图像”或“文本”

      处理算法

      “图像”可选“清洗”或“增强”下的算法,“文本”只可选“清洗”算法

      输入

      可选“标注数据集”、“我的数据集”或“数据集收藏”,可添加多个

      输出

      可选“标注数据集”或“我的数据集”,参考 预置算法输出目录结构

      单节点规格

      数据处理的算力规格。仅 GPU、MLU 型预置算法需要选择

      节点名称

      指定数据处理可运行的节点,不可与“驱动版本”同时指定

      驱动版本

      选择 MLU 或 GPU 规格时可用

      节点数

      目前暂不支持修改,只支持 1 个。仅 GPU、MLU 型预置算法需要

  4. 单击“创建”。

准备数据和脚本

通过用户算法和自定义运行指令创建数据处理,前期准备操作如下:

  1. 准备需要处理的数据集;

  2. 开发处理数据集的脚本:

    例如使用 PIL 对图片增强对比度:

    from PIL import Image, ImageEnhance
    
    def enhance_contrast(image_path, output_path, contrast_factor):
       image = Image.open(image_path)
       enhancer = ImageEnhance.Contrast(image)
       enhanced_image = enhancer.enhance(contrast_factor)
       enhanced_image.save(output_path)
    

    输入输出路径请参考 数据处理目录结构

  3. 在算法卷中上传脚本,操作参见 算法卷

  4. 上传脚本运行时镜像到镜像仓库,并在镜像“适用范围”中添加 数据处理 ,操作参见 镜像管理

数据处理目录结构

运行数据处理生成脚本时容器内的目录结构为:

/
└── workspace
    ├── algorithm(创建时选择的算法卷)
    ├── anno_dataset
    │   ├── 标注数据集名字 A
    │   |   └── annotation(选择某个版本的标注数据时,该版本的标注文件)
    |   └── 标注数据集名字 B
    └── dataset
        ├── private
        │   ├── 我的数据集名字 C
        │   └── 我的数据集名字 D
        └── favorite
            ├── 收藏数据集名字 E
            │   └── 收藏数据集版本名字 V1
            └── 收藏数据集名字 F
                └── 收藏数据集版本名字 V2

预置算法输出目录结构

如果使用预置算法创建数据处理,处理结果会被保存在输出数据集根目录下每个输入数据集对应的子目录中。

例如:输入标注数据集名字 A、标注数据集名字 B、我的数据集名字 C、我的数据集名字 D、收藏数据集名字 E 版本名 V1、收藏数据集名字 F 版本名 V2。输出目录结构为:

└── 输出数据集
   ├── anno-dataset-A
   ├── anno-dataset-B
   ├── dataset-private-C
   ├── dataset-private-D
   ├── favorite-E-V1
   └── favorite-F-V2

支持预置算法说明

目前支持针对图像任务(清洗算法和增强算法)和文本任务(清洗算法)的预置算法。

清洗算法只可单选,增强算法可多选,并且可以拖拽排序执行顺序。

图像清洗算法

详细信息为:

表 112 图像清洗算法

算法名称

说明

图片去近似(GPU)

设置相似程度阈值,过滤掉相似度高于此值的图片对中的任意一张,推荐使用 GPU 规格

图片去近似(MLU)

设置相似程度阈值,过滤掉相似度高于此值的图片对中的任意一张,推荐使用 MLU 规格

过滤无人体(GPU)

过滤不包含人体的图片,推荐使用 GPU 规格

过滤无人体(MLU)

过滤不包含人体的图片,推荐使用 MLU 规格

过滤无人脸(GPU)

过滤不包含人脸的图片,推荐使用 GPU 规格

过滤无人脸(MLU)

过滤不包含人脸的图片,推荐使用 MLU 规格

图像增强算法

目前支持多种图像增强算法。增强前的原始图像如下:

../../_images/origin.jpg

图 171 增强前的原始图像

仿射

对图像进行仿射变换。

表 113 仿射增强超参数

超参数

描述

数据类型

数据范围

scale

要使用的缩放因子,其中 1.0 表示“无变化”,

0.5 表示缩小到原始大小的 50% 。

float

[0, 1]

translate_percent

平移为图像高度/宽度的一部分(x 平移、y 平移),

其中 0 表示“无变化”,0.5 表示“轴尺寸的一半”。

float

[-1, 1]

rotate

以度为单位的旋转(不是弧度)。旋转发生在图像中心,

将从区间 [a, b] 中均匀采样一个值,并将其用作旋转值。

(int, int)

[-360,360]

shear

以度为单位的错切(不是弧度),推荐值范围为 [-45, 45]。

从区间 [a, b] 中均匀采样两个值,并用作 x 和 y 剪切值。

(int, int)

[-360, 360]

p

应用变换的概率。

float

[0, 1]

../../_images/affine-0.8-0.2-45-20.jpg

图 172 仿射变换增强结果(scale=0.8,translate_percent=0.2,rotate=45,shear=20)

正框随机裁切

随机裁剪,裁剪区域包含所有正框,即在所有正框的外接矩形到图像边缘范围内裁剪。

表 114 正框随机裁切超参数

超参数

描述

数据类型

数据范围

erosion_rate

腐蚀比率,表示裁切之前图像边缘内缩的比率。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/bboxsaferandomcrop-0.2.jpg

图 173 正框随机裁切增强结果(erosion_rate=0.2)

模糊

对图像进行模糊操作。

表 115 模糊超参数

超参数

描述

数据类型

数据范围

blur_limit

模糊图像的最大核大小。

int

[3, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/blur-0.1.jpg

图 174 模糊增强结果(blur_limit=0.1)

亮度

改变图像的亮度。

表 116 亮度超参数

超参数

描述

数据类型

数据范围

brightness

亮度抖动多少,将从该范围采样。

(float, float)

[0, 2]

p

应用变换的概率。

float

[0, 1]

../../_images/brightness-(0.8,1.1).jpg

图 175 亮度增强结果(brightness=(0.8, 1.1))

中心裁切

裁剪图像中心区域。

表 117 中心裁切超参数

超参数

描述

数据类型

数据范围

height

裁剪后的图像高度。

int

[1, inf]

width

裁剪后的图像宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/centercrop-200-300.jpg

图 176 中心裁切增强结果(height=200, width=300)

随机粗挖除

随机丢弃图像中的矩形区域,用固定值填充。

表 118 随机粗挖除超参数

超参数

描述

数据类型

数据范围

max_holes

需裁剪的最大区域个数。

int

[1, inf]

min_holes

需裁剪的最小区域个数。

int

[1, inf]

min_height

洞的最小高度。

int

[1, inf]

min_width

洞的最小宽度。

int

[1, inf]

max_height

洞的最大高度。

int

[1, inf]

max_width

洞的最大宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/coarsedropout-10-5-20-20-1-1.jpg

图 177 随机粗挖除增强结果(max_holes=10, min_holes=5, min_height=1, min_width=1, max_height=20, max_width=20)

对比度

改变图像的对比度。

表 119 对比超参数

超参数

描述

数据类型

数据范围

contrast

对比度抖动多少,将从该范围采样。

(float, float)

[0, 2]

p

应用变换的概率。

float

[0, 1]

../../_images/contrast-(0.2,1.2).jpg

图 178 对比度增强结果(contrast=(0.2, 1.2))

裁切

裁剪图像,返回裁剪部分。

表 120 裁切超参数

超参数

描述

数据类型

数据范围

x_min

裁剪区域的左上角x坐标。

int

[0, inf]

y_min

裁剪区域的左上角y坐标。

int

[0, inf]

x_max

裁剪区域的右下角x坐标。

int

[0, inf]

y_max

裁剪区域的右下角y坐标。

int

[0, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/crop-100-200-350-400.jpg

图 179 裁切增强结果(x_min=100, y_min=200, x_max=350, y_max=400)

裁切并填充

按像素数或者图像占比裁剪或填充图像上下左右四个边缘。此变换永远不会裁剪高度或宽度低于 1 的图像。注意此变换会 resize 变换后的图像到原始图像大小。

表 121 裁切并填充超参数

超参数

描述

数据类型

数据范围

percent

图像每侧裁剪(负值)或填充(正值)像素比例,

以分数形式给出。 如果设为 -0.1,

则变换将在四周裁剪图像高度的各 10%。

float

[-1, 1]

keep_size

裁剪或填充后的图像尺寸会改变。

若为真,表示将其改为输入图像尺寸。

否则保留变化后的尺寸。

bool

/

sample_independently

表示四个边操作的值是否独立采样。

bool

/

p

应用变换的概率。

float

[0, 1]

../../_images/cropandpad-0.2-True-True.jpg

图 180 裁切并填充增强结果(percent=0.2, keep_size=True, sample_independently=True)

灵活变换

对图像应用弹性的变换。

表 122 灵活变换超参数

超参数

描述

数据类型

数据范围

alpha

扭曲变换参数。值越大扭曲效果越明显。

float

[0, inf]

sigma

高斯滤波参数。值越小扭曲效果越明显。

float

[0, inf]

alpha_affine

仿射变换参数。

float

[0, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/elastictrasform-1.5-50-50.jpg

图 181 灵活变换增强结果(alpha=1.5, sigma=50, alpha_affine=50)

图片镜像

水平、垂直或水平和垂直翻转输入。

表 123 图片镜像超参数

超参数

描述

数据类型

数据范围

p

应用变换的概率。

float

[0, 1]

../../_images/flip.jpg

图 182 图片镜像增强结果

网格变形

将网格失真增强应用于图像、蒙版和边界框。该技术涉及将图像划分为单元网格并随机移动网格的交叉点,从而导致局部变形。

表 124 网格变形超参数

超参数

描述

数据类型

数据范围

num_steps

图像分块数(横纵相等)。

int

[1, inf]

distort_limit

畸变限制范围。

float

[0, 1]

normalized

若设为真,图像内容与原图一致,

不会丢失或扩充图像边界。

bool

p

应用变换的概率。

float

[0, 1]

../../_images/griddistortion-10-(0,0.5)-True.jpg

图 183 网格变形增强结果(num_steps=10, distort_limit=(0,0.5), normalized=True)

网格挖除

以网格方式丢弃图像的矩形区域和相应的掩模。

表 125 网格挖除超参数

超参数

描述

数据类型

数据范围

ratio

掩模孔与 unit_size 的比率(水平和垂直方向相同)。

float

[0, 1]

unit_size_min

网格单元的最小尺寸。

int

[2, 图像短边]

unit_size_max

网格单元的最大尺寸。

int

[2, 图像短边]

shift_x

控制 grids 的起点x方向偏移。

int

[0, inf]

shift_y

控制 grids 的起点y方向偏移。

int

[0, inf]

fill_value

被丢弃的像素的值。

int

[0, 255]

p

应用变换的概率。

float

[0, 1]

../../_images/griddropout-0.2-10-20-2-2-0.jpg

图 184 网格挖除增强结果(ratio=0.2, unit_size_min=10, unit_size_max=20, shift_x=2, shift_y=2, fill_value=0)

水平镜像

输入绕 y 轴水平翻转。

表 126 水平镜像超参数

超参数

描述

数据类型

数据范围

p

应用变换的概率。

float

[0, 1]

../../_images/horizontalflip.jpg

图 185 水平镜像增强结果

限制最长边的图像缩放

保持缩放比例缩放图像,将长边调整为指定尺寸。

表 127 限制最长边的图像缩放超参数

超参数

描述

数据类型

数据范围

max_size

变换后图像最长边的尺寸。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/longestmaxsize-300.jpg

图 186 限制最长边的图像缩放增强结果(max_size=300)

蒙版挖除

随机将图像和蒙版中的目标实例归零。

表 128 蒙版超参数

超参数

描述

数据类型

数据范围

max_objects

可以清零的最大标签数。

int

[0, inf]

image_fill_value

图像中归零区域填充值。

int

[0, 255]

mask_fill_value

蒙版的归零区域填充值。

int

[0, 255]

p

应用变换的概率。

float

[0, 1]

../../_images/maskdropout-20-0-0.jpg

图 187 蒙版挖除增强结果(max_objects=20, image_fill_value=0, mask_fill_value=0)

光学变形

图像进行桶型或枕型畸变。

表 129 光学变形超参数

超参数

描述

数据类型

数据范围

distort_limit

畸变限制,大于零时是桶形畸变,

小于零时是枕形畸变。

float

[0, 1]

shift_limit

偏移限制。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/opticaldistortion-0.5-0.05.jpg

图 188 光学变形增强结果(distort_limit=0.5, shift_limit=0.05)

按需填充

填充图像边缘到指定尺寸。

表 130 按需填充超参数

超参数

描述

数据类型

数据范围

min_height

填充后图像的最小高度。

int

[1, inf]

min_width

填充后图像的最小宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/padifneeded-600-700.jpg

图 189 按需填充增强结果(min_height=600, min_width=700)

透视变换

对输入执行随机四点透视变换。

表 131 透视变换超参数

超参数

描述

数据类型

数据范围

scale

正态分布的标准差。用于控制新的子图像 corners

与完整图像 corners 的距离。

float

[0, 1]

keep_size

应用透视变换后是否将图像调整回原始大小。

bool

/

fit_output

如为真,变换后图像平面大小和位置被调整为能捕获整个图像

(如 keep_size 设置为真,则随后调整图像大小)。

bool

/

p

应用变换的概率。

float

[0, 1]

../../_images/perspective-(0.05,0.1)-True-True.jpg

图 190 透视变换增强结果(scale=(0.05,0.1), keep_size=True, fit_output=True)

分段仿射

应用局部邻域之间不同的仿射变换。这种增强在图像上放置规则的点网格,并通过仿射变换随机移动这些点的邻域,会导致局部扭曲。

表 132 分段仿射超参数

超参数

描述

数据类型

数据范围

scale

形变因子,值越大,代表偏离常规网格点的距离越大。

float

[0, 1]

nb_rows

常规网格的行数,至少为2,大图像建议4以上。

int

[2, inf]

nb_cols

常规网格的列数,至少为2,大图像建议4以上。

int

[2, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/piecewiseaffine-(0.05,0.1)-8-8.jpg

图 191 分段仿射增强结果(scale=(0.05,0.1), nb_rows=8, nb_cols=8)

像素挖除

随机丢弃像素,即设置某些像素值为0。

表 133 像素挖除超参数

超参数

描述

数据类型

数据范围

dropout_prob

丢弃像素的概率。

float

[0, 1]

per_channel

通道维是否独立操作,若为真,

表示每个通道单独生成 drop mask。

bool

/

drop_value

丢弃位置重置的像素值。

int

[0, 255]

p

应用变换的概率。

float

[0, 1]

../../_images/pixeldropout-0.1-True-0.jpg

图 192 像素挖除增强结果(dropout_prob=0.1, per_channel=True, drop_value=0)

随机裁切

随机裁剪图像。

表 134 随机裁切超参数

超参数

描述

数据类型

数据范围

height

裁切后图像的高度。

int

[1, inf]

width

裁切后图像的宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/randomcrop-300-300.jpg

图 193 随机裁切增强结果(height=300, width=300)

随机边缘裁切

图像四周边缘裁剪掉部分,结果不 resize,所以会改变原始图像尺寸。

表 135 随机边缘裁切超参数

超参数

描述

数据类型

数据范围

crop_left

图像左侧裁剪比例。

float

[0, 1]

crop_right

图像右侧裁剪比例。

float

[0, 1]

crop_top

图像顶侧裁剪比例。

float

[0, 1]

crop_bottom

图像底侧裁剪比例。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/randomcropfromborders-0.1-0.15-0.2-0.25.jpg

图 194 随机边缘裁切增强结果(crop_left=0.1, crop_right=0.15, crop_top=0.2, crop_bottom=0.25)

随机网格洗牌

将图像分块,并随机打乱。

表 136 随机网格洗牌超参数

超参数

描述

数据类型

数据范围

rows

网格行数。

int

[1, inf]

columns

网格列数。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/randomgridshuffle-5-5.jpg

图 195 随机网格洗牌增强结果(rows=5, columns=5)

随机缩放裁切

裁剪图像某个区域,并缩放至指定尺寸。

表 137 随机缩放裁切超参数

超参数

描述

数据类型

数据范围

scale

相对原始图像的裁剪范围。

float

[0, 1]

height

缩放的目标高度。

int

[1, inf]

width

缩放的目标宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/randomresizedcrop-(0.08,1)-200-300.jpg

图 196 随机缩放裁切增强结果(scale=(0.08,0.1), height=200, width=300)

随机 90 度旋转

0 次或多次旋转图片 90 度,即对原图进行0°,90°,180°,270° 随机旋转。

表 138 随机 90 度旋转

超参数

描述

数据类型

数据范围

p

应用变换的概率。

float

[0, 1]

../../_images/randomrotate90.jpg

图 197 随机 90 度旋转增强结果

随机放大或缩小

随机调整输入的大小。输出图像尺寸与输入图像尺寸不同。

表 139 随机放大或缩小超参数

超参数

描述

数据类型

数据范围

scale_limit

缩放因子范围。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/randomscale-0.1.jpg

图 198 随机放大或缩小增强结果(scale_limit=0.1)

随机正框安全裁切

裁剪输入的随机部分并将其重新缩放到一定大小,而不会丢失正框。

表 140 随机正框安全裁切超参数

超参数

描述

数据类型

数据范围

erosion_rate

腐蚀比率,该值表示裁剪之前图像边缘内缩的比率。

float

[0, 1]

height

裁剪并调整大小后的高度。

int

[1, inf]

width

裁剪并调整大小后的宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/randomsizedbboxsafecrop-0.1-300-300.jpg

图 199 随机正框安全裁切增强结果(erosion_rate=0.1, height=300, width=300)

随机裁切缩放

裁剪输入的随机部分并将其重新缩放到特定大小。

表 141 随机裁切缩放超参数

超参数

描述

数据类型

数据范围

max_crop_height

随机裁剪的最大高度。

int

[1, inf]

min_crop_height

随机裁剪的最小高度。

int

[1, inf]

w2h_ratio

裁剪的宽高比。

float

[0, inf]

height

缩放的目标高度。

int

[1, inf]

width

缩放的目标宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/randomsizedcrop-400-200-1-100-100.jpg

图 200 随机裁切缩放增强结果(max_crop_height=400, min_crop_height=200, w2h_ratio=1, height=100, width=100)

更改图像大小

将输入的大小调整为给定的高度和宽度。

表 142 更改图像大小超参数

超参数

描述

数据类型

数据范围

height

调整大小后的高度。

int

[1, inf]

width

调整大小后的宽度。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/resize-300-300.jpg

图 201 更改图像大小增强结果(height=300, width=300)

更改 RGB 的值

RGB 每个通道上的值进行偏移。

表 143 更改 RGB 超参数

超参数

描述

数据类型

数据范围

r_shift_limit

红色通道值偏移的范围。

int

[0, inf]

g_shift_limit

绿色通道值偏移的范围。

int

[0, inf]

b_shift_limit

蓝色通道值偏移的范围。

int

[0, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/rgbshift-20-20-20.jpg

图 202 更改图像大小增强结果(r_shift_limit=20, g_shift_limit=20, b_shift_limit=20)

旋转

将图像旋转一定角度。

表 144 旋转超参数

超参数

描述

数据类型

数据范围

90_ratio

图片旋转 90 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

180_ratio

图片旋转 180 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

270_ratio

图片旋转 270 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/rotate-0.1-0.2-0.3.jpg

图 203 旋转增强结果(90_ratio=0.1, 180_ratio=0.2, 270_ratio=0.3)

安全旋转

将图像旋转一定角度。旋转后,图像可能具有不同的长宽比,调整大小后,它会以图像的原始长宽比恢复到原始形状。由于这些原因,我们可能会看到一些伪影。

表 145 安全旋转超参数

超参数

描述

数据类型

数据范围

90_ratio

图片旋转 90 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

180_ratio

图片旋转 180 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

270_ratio

图片旋转 270 度的概率

(与其他两个角度的概率一起加权,归一化到 1)。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/saferotate-0.3-0.2-0.1.jpg

图 204 安全旋转增强结果(90_ratio=0.3, 180_ratio=0.2, 270_ratio=0.1)

锐度

锐化输入图像并将结果与原始图像叠加。

表 146 锐度超参数

超参数

描述

数据类型

数据范围

alpha

控制锐化图像的程度。

0 表示只保留原图,1 表示只保留锐化图。

float

[0, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/sharpen-(0.2,0.5).jpg

图 205 锐度增强结果(alpha=(0.2,0.5))

随机平移、缩放和旋转

随机应用仿射变换:平移、缩放和旋转输入。

表 147 随机平移、缩放和旋转超参数

超参数

描述

数据类型

数据范围

shift_limit

高度和宽度的移位因子范围。

float

[-1, 1]

scale_limit

缩放因子范围。

float

[-1, 1]

rotate_limit

旋转角度范围。

float

[-1, 1]

p

应用变换的概率。

float

[0, 1]

../../_images/shiftscalerrotate-(-0.1,0.1)-(-0.1,0.1)-(-45,45).jpg

图 206 随机平移、缩放和旋转增强结果(shift_limit=(-0.1,0.1), scale_limit=(-0.1,0.1), rotate_limit=(-45,45))

限制最短边的图像缩放

重新缩放图像,使最小边等于 size,同时保持初始图像的宽高比。

表 148 限制最短边的图像缩放超参数

超参数

描述

数据类型

数据范围

size

变换后图像最小边的最大尺寸。

int

[1, inf]

p

应用变换的概率。

float

[0, 1]

../../_images/smallestmaxsize-200.jpg

图 207 限制最短边的图像缩放增强结果(size=200)

转置

通过交换行和列来转置输入。

表 149 转置超参数

超参数

描述

数据类型

数据范围

p

应用变换的概率。

float

[0, 1]

../../_images/transpose.jpg

图 208 转置增强结果

垂直镜像

绕 x 轴垂直翻转输入。

表 150 垂直镜像超参数

超参数

描述

数据类型

数据范围

p

应用变换的概率。

float

[0, 1]

../../_images/verticalflip.jpg

图 209 垂直镜像增强结果

文本清洗算法

To_utf8

将非 utf-8 编码的文本转为 utf-8。

To_simple

将文本中的繁体字转为简体字。

Remove_emoji

去除文本中的表情符号。

Remove_url

去除文本中的 URL 链接。

Remove_phone

去除文本中的电话号码。

Remove_email

去除文本中的电子邮箱地址。

Contain_zh_en

仅保留文本中的中文和英文,去除其他语言。

查看数据处理详情

  1. 左侧功能栏选择“数据管理->数据处理”;

  2. 单击数据处理“名称”,进入详情页,可查看数据处理相关的输入、输出、算法等配置信息;

  3. 在数据处理详情页,单击上方“监控”功能,可查看数据处理 CPU、内存、MLU、网络流量等资源的监控;

  4. 在数据处理详情页,单击上方“日志”功能,可查看数据处理的日志、事件信息。

克隆数据处理

  1. 左侧功能栏选择“数据管理->数据处理”;

  2. 查找需要克隆的数据处理,单击该数据处理的“操作”按钮;

  3. 在下拉列表中,单击“克隆”;

  4. 调整配置;

  5. 单击“创建”。

搜索数据处理

  1. 左侧功能栏选择“数据管理->数据处理”;

  2. 单击左上角搜索框;

  3. 在下拉列表中,可基于“名称”、“状态”、“创建人”、“我的算法卷”、“算法收藏”、“数据集收藏”、“我的数据集”和“算力规格”搜索数据处理。

删除数据处理

  1. 左侧功能栏选择“数据管理->数据处理”;

  2. 单个删除:查找需要删除的数据处理,单击该数据处理的“操作”按钮,在下拉列表中,单击“删除”;

  3. 批量删除:单击表格右上角“编辑”按钮,勾选多个需要删除的数据处理,单击表格右上角“删除”按钮;

  4. 单击“确认删除”。

他人访问权限

5.0 版本新增: 支持为数据处理配置他人访问权限。

创建时,可以限制同项目内其他用户的访问权限,包括:“可读写”、“只读”和“不可读写”。 应用访问权限不得高于资源访问权限。 若管理员关闭共享权限,则他人访问权限只能为“不可读写”。

不同权限支持的操作如下:

表 151 他人支持的操作

可读写

只读

不可读写

查看详情

X

克隆

X

停止

X

X

删除

X

X