大语言模型标注

大语言模型标注与其他类型的标注数据集操作流程略有不同,这里着重介绍不同之处。

大语言模型标注数据集不依赖标注规则集,可以直接创建大语言模型标注数据集。

../../_images/create_llm_annotation_dataset.png

图 159 创建大语言模型标注数据集

预训练标注数据集

应用场景是预训练的标注数据集无需标注,导入数据后支持查看以及发布新版本功能。

导入文本文件

  1. 单击“导入文本文件”;

../../_images/import_llm_text.png

图 160 导入文本文件

  1. 按照页面提示配置参数:

    表 103 导入文本文件参数

    名称

    必填项

    说明

    分隔符

    分隔符将上传文件的内容分隔为单条数据

    文件

  2. 若分隔符选择“无”,则将上传的文件整体视为一条数据,进行导入。否则将按分隔符将文件内容进行切割,导入切割后形成的多条数据;

  3. 导入文本文件后,无需“同步新数据”。

查看数据

  1. 单击“查看”;

  2. 界面中左侧栏显示文件列表,中间栏显示分隔后的文本内容。

../../_images/view_llm_pretrain.png

图 161 查看预训练标注数据集

大语言模型微调标注数据集

应用场景为大语言模型微调的标注数据集需要标注,支持导入标注数据或者在标注界面新建添加新数据。

导入标注数据

  1. 单击“导入标注数据”;

../../_images/import_llm_sft.png

图 162 导入标注数据

  1. 按照页面提示配置参数:

    表 104 导入标注数据参数

    名称

    必填项

    说明

    文件

    支持上传 JSON、XLSX、CSV 格式文件,

    可下载示例文件查看格式要求。

  2. 导入标注数据表单如下图所示。

../../_images/import_llm_sft_drawer.png

图 163 导入标注数据表单

标注数据

  1. 单击“标注”;

  2. 进入标注界面,左侧栏显示样本列表,支持手动添加新样本,中间栏渲染对话,右侧栏支持添加、修改、删除对话;

../../_images/llm_sft_annotation.png

图 164 大语言模型微调标注界面

  1. 单击右侧栏“添加对话”,弹出窗口,填写“问题”和“回答”,点击确认完成添加。

../../_images/llm_sft_annotation_dialog.png

图 165 大语言模型微调对话窗口