‌·

中国工程院吴世忠研究员:

高质量推进数据集建设

来源:贵阳日报     2025年08月29日        版次:A04    作者:

“当前,全球人工智能正从感知智能向认知智能跃迁,大模型作为核心载体,其能力边界由数据的质量、规模和安全性定义,是模型训练基础与性能优化支撑,关乎社会伦理与文化传承。”吴世忠说。

从重要意义看,大模型时代数据集被提到新高度。国家政策层面,数据集建设已纳入我国人工智能发展战略规划。现实情况中,我国大模型发展有独特场景与文化需求,中文数据丰富多元,同时对人工智能治理审慎,需在数据集源头融入安全与文化元素,数据集建设是战略工程。

然而,数据集建设面临诸多现实困难,需从多方面加强工作:要完善分级分类数据安全制度,制定安全指南,实施分级分类管理,建立资源目录。要强化全流程技术防护手段,加强采集阶段合规性验证与敏感信息检测,提升标注环节质量控制,部署数据沙箱环境。要创新多方协同治理模式,政府发挥统筹作用,企业落实主体责任,科研机构推进技术攻关。要培育安全向善行业生态,融入优秀传统文化与价值观,鼓励企业发布白皮书,支持行业协会制定公约。

性能安全是大模型核心领域,数据集是关键。“我们既是建设者、把关者,也是守门人,唯有敬畏数据,才能让大模型更好服务社会与国家发展。”吴世忠说。