“当前,全球人工智能正从感知智能向认知智能跃迁,大模型作为核心载体,其能力边界由数据的质量、规模和安全性定义,是模型训练基础与性能优化支撑,关乎社会伦理与文化传承。”吴世忠说。
从重要意义看,大模型时代数据集被提到新高度。国家政策层面,数据集建设已纳入我国人工智能发展战略规划。现实情况中,我国大模型发展有独特场景与文化需求,中文数据丰富多元,同时对人工智能治理审慎,需在数据集源头融入安全与文化元素,数据集建设是战略工程。
然而,数据集建设面临诸多现实困难,需从多方面加强工作:要完善分级分类数据安全制度,制定安全指南,实施分级分类管理,建立资源目录。要强化全流程技术防护手段,加强采集阶段合规性验证与敏感信息检测,提升标注环节质量控制,部署数据沙箱环境。要创新多方协同治理模式,政府发挥统筹作用,企业落实主体责任,科研机构推进技术攻关。要培育安全向善行业生态,融入优秀传统文化与价值观,鼓励企业发布白皮书,支持行业协会制定公约。
性能安全是大模型核心领域,数据集是关键。“我们既是建设者、把关者,也是守门人,唯有敬畏数据,才能让大模型更好服务社会与国家发展。”吴世忠说。
(《高质量推进数据集建设》由贵阳日报为您提供,转载请注明来源,未经书面授权许可,不得转载或镜像。)