科技资讯 2023-04-18 20:09

监管机构和服务提供商正在努力应对保护年轻社交媒体用户免受骚扰和欺凌的双重挑战,同时也要采取措施保护他们的隐私,来自四所顶尖大学的研究人员组成的团队提出了一种方法,可以使用机器学习技术标记Instagram上的风险对话,而无需窃听。这一发现可能会为平台和父母提供机会,在保护脆弱的年轻用户的同时,保护他们的隐私。

由来自德雷塞尔大学、波士顿大学、佐治亚理工学院和范德堡大学的研究人员领导的团队最近在计算机协会人机交互会议的会议记录上发表了他们的及时工作——一项调查,旨在了解哪种类型的数据输入,如元数据、文本和图像特征,对机器学习模型识别危险对话最有用。他们的研究结果表明,有风险的对话可以通过元数据特征来检测,比如对话长度和参与者的参与度。

他们的努力解决了这个在美国13至21岁人群中最受欢迎的社交媒体平台上日益严重的问题。最近的研究表明,Instagram上的骚扰正在导致其最年轻用户的抑郁症急剧上升,尤其是少女的心理健康和饮食失调。

“Instagram这样的平台在年轻人中很受欢迎,正是因为它让用户感到足够安全,可以以一种非常开放的方式与他人联系,这一点非常令人担忧,因为我们现在知道恶意用户的骚扰、虐待和欺凌很普遍,”德雷塞尔大学计算与信息学院助理教授、该研究的合著者阿夫萨内·拉兹博士说。

与此同时,在剑桥分析(Cambridge Analytica)丑闻和欧盟(eu)制定了史无前例的隐私保护法之后,各平台在保护用户隐私方面面临着越来越大的压力。因此,Facebook和Instagram背后的meta公司正在其平台上推出所有信息的端到端加密。这意味着消息的内容在技术上是安全的,只能由对话中的人访问。

但这种增加的安全级别也使平台更难采用自动化技术来检测和防范在线风险——这就是为什么该集团的系统可以在保护用户方面发挥重要作用。

Razi说:“解决不良行为者激增的一种方法是自动化风险检测程序,这种程序的规模可以保护弱势用户。”“但挑战在于以一种道德的方式设计它们,使它们能够准确,但又不侵犯隐私。在通信平台上实施端到端加密等安全功能时,把年轻一代的安全和隐私放在首位是很重要的。”

Razi和她的同事们开发的这个系统使用了机器学习算法,采用分层方法创建了一个有风险的对话的元数据配置文件——例如,它可能是简短而片面的——结合上下文线索,例如是否发送了图像或链接。在他们的测试中,该程序仅使用这些稀疏和匿名的细节就能识别出有风险的对话,准确率高达87%。

为了训练和测试该系统,研究人员收集并分析了172名年龄在13-21岁的Instagram用户的1.7万多条私人聊天记录,这些用户自愿参与对话,总共超过400万条信息,以协助研究。参与者被要求回顾他们的对话,并将每个对话标记为“安全”或“不安全”。,其中约有3300段对话被标记为“不安全”,并被归入五种风险类别之一:骚扰、性信息/引诱、裸体/色情、仇恨言论以及非法活动的销售或推广。

该团队从每个类别中随机抽取对话,使用几个机器学习模型提取出一组元数据特征,比如平均对话长度、参与的用户数量、发送的消息数量、响应时间、发送的图像数量,以及参与者是否在Instagram上与他人联系或相互联系,这些特征与风险对话最密切相关。

这些数据使团队能够创建一个只使用元数据就能运行的程序,如果Instagram对话是端到端加密的,其中一些元数据就可以使用。

“总的来说,我们的发现为未来的研究和整个行业的影响提供了有趣的机会,”该团队报告说。“首先,仅基于元数据特征执行风险检测可以实现轻量级检测方法,不需要分析文本和图像所涉及的昂贵计算。其次,开发不分析内容的系统可以缓解该领域出现的一些隐私和道德问题,确保用户受到保护。”

为了改进它,如果用户或父母出于安全目的选择分享对话的额外细节,那么可以制作一个更有效的程序,能够识别特定的风险类型,该团队使用相同的数据集对语言线索和图像特征进行了类似的机器学习分析。

在这个例子中,先进的机器学习程序梳理了对话的文本,并知道用户认为哪些联系人是“不安全的”,从而确定了在危险对话中足够普遍的单词和单词组合,可以用来触发标志。

图片和视频是Instagram上交流的核心,为了分析这些图片和视频,该团队使用了一组程序,其中一个可以识别并提取图片和视频上方的文本,另一个可以查看并为每张图片生成标题。然后,使用类似的文本分析,机器学习程序再次创建了一个显示危险对话中分享的图像和视频的单词配置文件。

在这些有风险的对话特征的训练下,机器学习系统通过分析从更大的数据集中随机抽取的对话进行测试,这些对话没有在配置文件生成或训练过程中使用。通过对元数据特征、语言线索和图像特征的组合分析,该程序能够识别出风险对话,准确率高达85%。

“元数据可以提供对年轻人不安全的对话的高级线索;然而,检测和应对特定类型的风险需要使用语言线索和图像数据,”他们报告说。“鉴于meta最近推动端到端加密,这一发现提出了重要的哲学和伦理问题,因为这种上下文线索对于利用人工智能的精心设计的风险缓解系统非常有用。”

研究人员承认,他们的研究有局限性,因为它只研究了Instagram上的信息,尽管该系统可以适用于分析其他平台上受端到端加密影响的信息。他们还指出,如果继续训练更大的信息样本,该程序可能会变得更加准确。

但他们指出,这证明了这项工作表明,有效的自动化风险检测是可能的,虽然保护隐私是一个合理的担忧,但还是有办法取得进展的,为了保护这些流行平台上最脆弱的用户,应该继续采取这些步骤。

他们写道:“我们的分析为未来实现基于机器学习的在线风险行为自动化检测提供了重要的第一步。”“我们的系统是基于对话的反应性特征,但我们的研究也为更主动的风险检测方法铺平了道路,这些方法在现实世界中更容易推广,因为它们具有丰富的生态有效性。”