大语言模型标注格式

大语言模型数据集的标注文件为单个 label.json ,格式为 LlmLabel

/
└── annotation
    └── v1
        └── label.json

JSON Schema

LlmLabel

大语言模型标注数据集导出的标注文件格式,文件名为 label.json

type

object

properties

  • dataset_info

标注数据集的信息

LlmDatasetInfo

  • instance_info

标注实例列表

type

array

items

LlmInstanceInfo

LlmDatasetInfo

大语言模型类型标注数据集的信息

type

object

properties

  • global_task_id

任务编号

type

string

  • creation_time

标注数据集的创建时间

type

string

  • creator

创建标注数据集的用户

type

string

  • instance_num

标注数据集中实例个数

type

integer

LlmInstanceInfo

标注实例的信息

type

object

properties

  • instance_id

该标注数据集中,该实例的唯一编号。从 0 开始。

type

integer

  • history

模型微调数据集历史对话记录

type

array

items

properties

  • instruction

type

string

  • output

type

string

  • instruction

模型微调数据集最新对话问题

type

string

  • output

模型微调数据集最新对话回答

type

string

  • text

预训练数据集文本

type

string