文本标注格式

文本数据集的标注文件为单个 label.json ,格式为 TextLabel

/
└── annotation
    └── v1
        └── label.json

JSON Schema

TextLabel

文本标注数据集导出的标注文件格式,文件名为 label.json

type

object

properties

  • dataset_info

标注数据集的信息

TextDatasetInfo

  • rule_dict

标注规则集包含的规则列表

type

array

items

TextRuleDict

  • text_info

文本列表

type

array

items

TextInfo

  • instance_info

标注实例列表

type

array

items

TextInstanceInfo

TextDatasetInfo

文本类型标注数据集的信息

type

object

properties

  • global_task_id

任务编号

type

string

  • creation_time

标注数据集的创建时间

type

string

  • creator

创建标注数据集的用户

type

string

  • split_type

标注数据集用途

type

string

  • text_num

标注数据集中样本数

type

integer

  • ruleset_code

标注规则集的唯一 Code 值

type

string

  • rule_num

标注规则集包含的规则个数

type

integer

  • instance_num

标注数据集中实例个数

type

integer

TextInfo

文本标注数据集中单个样本的信息

type

object

properties

  • text_content

文本内容

type

string

  • text_id

样本的唯一编号。从 0 开始。

type

integer

  • text_name

文本文件路径

type

string

  • instance_num

文本所含实例的个数

type

integer

TextRuleDict

标注规则的信息

type

object

properties

  • rule_id

规则集下的类别 ID。从 1 开始。

type

integer

  • rule_code

规则集下的分类的 Code

type

string

  • rule_type

规则类型,当前支持: - Classification(文本分类单标签) - MultiLabelClassification(文本分类多标签) - TextSimilarity(文本相似度) - TextSentimentTarget(情感分析-目标级) - TextSentimentText(情感分析-文本级) - TextNaturalLanguageGeneration(文本创作) - TextScore(文本打分) - TextEntity(文本实体抽取) - TextEntityRelation(文本实体关系抽取) - TextRelevancyRank(文本相关性排序) - TextAbstract(文本摘要-抽取式) - TextReadingComprehension(文本阅读理解) - TextCommentViewExtract(评论观点抽取)

type

string

TextSegment

样本中的文本片段信息, start, end, span按需填入

properties

  • start

文本片段的起始点

type

number

format

integer

  • end

文本片段的终止点

type

number

format

integer

  • span

片段的内容

type

string

TextInstanceInfo

标注实例的信息

type

object

properties

  • rule_type

实例类型。当前支持: - textClassification(文本分类单标签) - textMultiLabelClassification(文本分类多标签) - textSimilarity(文本相似度) - textSentimentTarget(情感分析-目标级) - textSentimentText(情感分析-文本级) - textNaturalLanguageGeneration(文本创作) - textScore(文本打分) - textEntity(文本实体抽取) - textEntityRelation(文本实体关系抽取) - textRelevancyRank(文本相关性排序) - textAbstract(文本摘要-抽取式) - textReadingComprehension(文本阅读理解) - textCommentViewExtract(评论观点抽取)

type

string

  • rule_id

该标注数据集中,该实例所属类别的唯一编号。从 1 开始。

type

integer

  • text_id

该标注数据集中,该实例所属样本的唯一编号。从 0 开始。

type

integer

  • instance_id

该标注数据集中,该实例的唯一编号。从 0 开始。

type

integer

  • sentiment_target

目标级情感分析的结果

TextSegment

  • nlg

文本创作、生成类任务的结果

type

string

  • score

文本打分的结果

type

number

format

float

  • entity

文本实体抽取的结果

TextSegment

  • entity_relation

文本实体关系抽取的结果

properties

  • predicate

文本实体关系抽取中的谓语

type

string

  • subject

文本实体关系抽取中的主语

TextSegment

  • subject_instance_id

文本实体关系抽取中的主语所属实体的实例编号

type

integer

  • subject_rule_id

文本实体关系抽取中的主语所属实体的规则编号

type

integer

  • object

文本实体关系抽取中的宾语

TextSegment

  • object_instance_id

文本实体关系抽取中的宾语所属实体的实例编号

type

integer

  • object_rule_id

文本实体关系抽取中的宾语所属实体的规则编号

type

integer

  • relevancy_rank

文本相关性排序结果

type

array

items

properties

  • content

待排序的文本

type

string

  • rank

排序结果

type

integer

  • abstract

文本摘要结果

type

array

items

TextSegment

  • reading_comprehension

文本阅读理解结果

type

array

items

properties

  • question

type

string

  • answer

type

array

items

TextSegment

  • comment_view_extract

评论观点抽取的结果

properties

  • object

评论观点抽取的对象

TextSegment

  • segment

评论观点抽取的片段

TextSegment

  • dimension

评论观点抽取的维度

TextSegment

  • viewpoint

评论观点抽取的观点

TextSegment