G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

今天要推荐的一篇文章是 IEEE Security & Privacy Magazine 上“新鲜出炉”的文章 Lessons Learned on Machine Learning for Computer Security(正式发表日期就是2023年9月11日)。在这篇由来自英国和德国的研究人员共同撰写的文章中,总结了当前计算机安全研究领域在应用机器学习技术时,最容易犯的10个错误(pitfall)

因为是发表在 magazine 上的短文章,所以作者开宗明义,上来就告诉大家,到底什么是机器学习在计算安全应用中的常见问题,这里面我们会看到一堆概念,比如 Spurious Correlations 啊 Data Snooping 之类,不过作者很贴心地整理了一个表格(下表),阅读的时候先看这个表格应该就很容易理解了。

那么,上面总结的这十宗罪,在真实世界中的存在情况如何呢?作者统计了30篇发表于各家 top conference 上面的论文(时间跨度从2011年到2020年),这些论文都利用了机器学习技术来辅助计算机安全分析,主要包括恶意代码检测和漏洞检测等。下图展示了这些论文(嗯,虽然它们都是已经发表的顶会论文)中存在上述10类 pitfall 的比例。

在所有的论文中,最常出现的问题是 sampling bias 和 data snooping:在所有被调查的论文中,有90%的论文(部分)存在 sampling bias 问题,而有73%的文章(部分)存在 data snooping 问题,而至少有一半的论文里面包含了 inappropriate performance measures 或者 lab-only evaluation 这两类问题中的一种。而且作者还尖锐地批评了所调查的论文,指出它们中只有22%的文章会主动去讨论相关的 pitfall,而其他论文作者可能根本没意识到这些问题(或者避而不谈)。当然,本文作者联系了所有30篇被调查论文的作者,得到的反馈是大家觉得这“十宗罪”确实需要认真考虑,我们科学社区还是很愿意自我批评的~

今天这篇短文内容不多,不过如果你最近正在做一些基于机器学习的安全分析,那么是不是可以自查一下,看自己有没有在这些问题上犯错呢(做“outdated”传统安全研究的人窃笑)?


论文:https://ieeexplore.ieee.org/abstract/document/10242205/


免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。查看原文

为您推荐