字数 1472,阅读大约需 8 分钟

GitHub 数据泄露:Copilot 仍可访问已设为私有的仓库
数据泄露的发现
以色列网络安全公司 Lasso,专注于新兴的生成性 AI 威胁,其最新研究揭示了一个令人担忧的问题:即使数据在互联网上只暴露了片刻,也可能会在微软 Copilot 等在线生成性 AI 聊天机器人中长期存在。Lasso 的联合创始人 Ophir Dror 透露,他们发现自己公司的 GitHub 仓库内容出现在了 Copilot 中,原因是该仓库曾被微软的 Bing 搜索引擎索引并缓存。Dror 表示,这个仓库曾因误操作被短暂地设置为公开状态,之后已设为私有,在 GitHub 上访问会返回“页面未找到”的错误。然而,在 Copilot 上,他们却意外地发现了自己已设为私有的仓库。“如果我在网上浏览,我不会看到这些数据。但世界上任何人都可以向 Copilot 提出正确的问题并获取这些数据。”Dror 说道。
数据泄露的影响
意识到任何在 GitHub 上的数据,即使只是短暂公开,都可能被 Copilot 等工具潜在地暴露后,Lasso 进行了进一步调查。他们提取了 2024 年任何时候曾公开的仓库列表,并确定了之后被删除或设为私有的仓库。利用 Bing 的缓存机制,Lasso 发现超过 20,000 个已设为私有的 GitHub 仓库仍然可以通过 Copilot 访问其数据,影响了超过 16,000 个组织。在发布研究之前,受影响的组织包括谷歌、IBM、PayPal、腾讯和微软等。Lasso 则表示,他们已根据法律团队的建议删除了所有对 AWS 的引用,并坚称他们的研究是可靠的。对于一些受影响的公司来说,Copilot 可能会被提示返回包含知识产权、敏感公司数据、访问密钥和令牌的机密 GitHub 存档。Lasso 指出,他们曾使用 Copilot 检索了一个由微软删除的 GitHub 仓库的内容,该仓库托管了一个使用微软云 AI 服务创建“冒犯性和有害”AI 图像的工具。Dror 表示,Lasso 已联系了所有受到数据暴露“严重影响”的公司,并建议他们轮换或撤销任何被泄露的密钥。
数据泄露的深层原因与潜在风险
生成性 AI 工具如 Copilot 依赖于大量的数据训练和缓存机制来提供快速响应。然而,这种机制也可能导致已设为私有的数据在 AI 系统中长期存在。Lasso 的研究显示,即使数据在 GitHub 上已被删除或设为私有,由于 Bing 搜索引擎的缓存机制,这些数据仍然可能在 Copilot 中可访问。这表明生成性 AI 工具在处理敏感数据时存在潜在的安全风险。对于企业来说,这种数据泄露可能意味着敏感的知识产权、商业机密和访问密钥等信息的暴露。这不仅可能导致经济损失,还可能对企业的声誉和合规性产生负面影响。对于个人开发者来说,他们的个人信息、代码和项目也可能面临被未经授权访问的风险。
行业反应与应对措施
Lasso 已将他们的发现通知了微软,但微软将该问题归类为“低严重性”,并表示这种缓存行为是“可以接受的”。从 2024 年 12 月开始,微软不再在搜索结果中包含指向 Bing 缓存的链接,但 Lasso 表示,尽管缓存功能已被禁用,Copilot 仍然可以访问这些数据,即使它们在传统的网络搜索中不可见,这表明这只是一个临时的修复措施。
微软的回应
2024年11月,以色列网络安全公司Lasso(专注于新兴生成性AI威胁)向微软通报了一项重要发现:即使数据在互联网上仅短暂公开,也可能长期驻留在如微软Copilot等在线生成性AI聊天机器人中。Lasso联合创始人Ophir Dror透露,该公司在Copilot中发现了其自身GitHub仓库的内容,原因是该仓库曾被微软的Bing搜索引擎索引并缓存。尽管该仓库在短暂公开后已被设置为私有,且在GitHub上访问会返回“页面未找到”错误,但在Copilot中仍可检索到相关数据。Dror表示:“如果我在网络上浏览,我不会看到这些数据。但世界上任何人都可以通过向Copilot提出正确问题来获取这些数据。”
潜在的解决方案
这一事件引发了对生成性AI工具如何处理和存储数据的担忧。虽然微软已采取措施减少对Bing缓存的依赖,但问题仍然存在。为了解决这个问题,可能需要采取以下措施:改进数据处理和存储机制;加强数据访问控制;提高数据安全意识;建立数据泄露响应机制。这提醒我们,在使用生成性AI工具时需要谨慎处理和存储数据,以避免潜在的数据泄露问题。