‌·

清华大学数字政府与治理研究院院长张小劲:

数据标注迈向“AI自驱”

来源:贵阳日报     2025年08月29日        版次:A04    作者:

“早期文本投喂已进化为机器学习的通识大模型,再升级为面向场景的专项大模型;数据抓取变为自我学习……”张小劲说,国家数据局、央企、国企齐推高质量数据集,恰好契合这一规律。

张小劲介绍,国家数据局刚发布的数据标注产业实施意见,把数据正式认定为生产要素,没有高质量标注就没有可交易、可应用的数据,也就没有行业驱动力。标注行业已成熟,催生新职业与技能标准。

技术层面,人工标注正被AI颠覆。合成数据弥补真实样本不足,大模型自标注、智能质检、工具链优化成为核心竞争力。企业可划为四类:技术场景双强(具身机器人)、技术强场景弱(前沿实验)、技术弱场景强(垂直采集)、技术弱场景弱(众包外包)。

面向未来,需要推进AI辅助与全自动标注,让标注从劳动密集转向知识密集;建立多轮质监与反馈机制,剔除低质数据,抑制大模型幻觉;开发行业靶向标注体系,把中国海量小众场景做成差异化优势;深化校企合作,加速技术转化与标准迭代;强化技能培训,优化人力配置与质量追踪。