La Era
科技

GitHub 更新 Copilot 数据政策 用户交互数据将用于模型训练

GitHub 于今日宣布更新 Copilot 交互数据使用政策。自 4 月 24 日起,免费、专业及专业增强版用户的交互数据将用于训练人工智能模型,除非用户选择退出。这一变更旨在提升代码建议的准确性与安全性,La Era 报道了该消息。

La Era

1 分钟阅读

GitHub Updates Copilot Data Policy to Train AI Models on Free and Pro User Interactions
GitHub Updates Copilot Data Policy to Train AI Models on Free and Pro User Interactions

GitHub 于今日正式宣布更新 Copilot 交互数据的使用政策。自 4 月 24 日起,免费、专业及专业增强版用户的交互数据将用于训练人工智能模型,除非用户明确选择退出。这一重大变更旨在提升代码建议的准确性与安全性,La Era 报道了该消息。

受影响的数据范围广泛,包括输入代码、输出结果及上下文环境。GitHub 企业版和商业版用户不受此政策调整影响,其数据隔离处理。公司强调,企业级数据不会被纳入公共模型训练集,以保护商业机密。

用户可在设置中的隐私选项内选择退出数据收集计划。此前已选择退出的用户偏好将被永久保留,数据不会用于训练。GitHub 表示,参与计划的用户将帮助模型更好地理解复杂的开发工作流。

收集的具体数据涵盖代码片段、文件结构及导航模式。系统还会记录用户对建议的反馈,例如点赞或点踩。这些信息有助于模型识别潜在错误并优化代码模式,从而减少生产环境中的漏洞。

早期模型主要依赖公开数据和人工编写的样本进行构建。过去一年,微软员工交互数据的加入已显著提升代码接受率。GitHub 认为,真实世界数据对提升模型性能至关重要,能够覆盖更多样化的用例。

该计划收集的数据可能与 GitHub 关联公司共享,包括微软。数据不会提供给第三方人工智能模型提供商。GitHub 明确区分了静态存储与活跃交互数据的处理差异,确保合规性。

私有仓库中的静态内容不会被使用,但活跃交互数据除外。这是因为运行服务需要处理私有仓库代码才能提供服务。若用户不退出,这部分交互数据可能被用于改进模型,这是运行服务的必要条件。

首席产品官 Mario Rodriguez 在声明中详细阐述了产品愿景。他表示,未来的人工智能开发依赖于开发者的真实交互数据。这位拥有 20 年经验的领导者曾负责微软和 GitHub 的 AI 战略。

无论用户是否参与,Copilot 功能均可正常使用。公司承诺继续构建加速工作流的工具,赋能开发者构建更安全的软件。开发者社区的选择将直接影响工具的未来发展方向,GitHub 对此表示感谢。

此次政策调整反映了生成式 AI 在软件行业的应用趋势。随着模型迭代,数据隐私与性能提升之间的平衡将持续受到关注。业界将观察其他平台是否跟进类似策略,这将成为行业常态。

评论

评论存储在您的浏览器本地。