‌·

中国工程院吴世忠研究员：

高质量推进数据集建设

来源：贵阳日报 2025年08月29日版次：A04 作者：

“当前，全球人工智能正从感知智能向认知智能跃迁，大模型作为核心载体，其能力边界由数据的质量、规模和安全性定义，是模型训练基础与性能优化支撑，关乎社会伦理与文化传承。”吴世忠说。

从重要意义看，大模型时代数据集被提到新高度。国家政策层面，数据集建设已纳入我国人工智能发展战略规划。现实情况中，我国大模型发展有独特场景与文化需求，中文数据丰富多元，同时对人工智能治理审慎，需在数据集源头融入安全与文化元素，数据集建设是战略工程。

然而，数据集建设面临诸多现实困难，需从多方面加强工作：要完善分级分类数据安全制度，制定安全指南，实施分级分类管理，建立资源目录。要强化全流程技术防护手段，加强采集阶段合规性验证与敏感信息检测，提升标注环节质量控制，部署数据沙箱环境。要创新多方协同治理模式，政府发挥统筹作用，企业落实主体责任，科研机构推进技术攻关。要培育安全向善行业生态，融入优秀传统文化与价值观，鼓励企业发布白皮书，支持行业协会制定公约。

性能安全是大模型核心领域，数据集是关键。“我们既是建设者、把关者，也是守门人，唯有敬畏数据，才能让大模型更好服务社会与国家发展。”吴世忠说。

（《高质量推进数据集建设》由贵阳日报为您提供，转载请注明来源，未经书面授权许可，不得转载或镜像。）

scroll

贵阳日报