一个自然语言水印嵌入安全性评估方案(2)

发布时间:2008-12-19 10:26 作者: 来源: 点击:加载中...次

Pierre Moulin和Joseph A. O’sullivan从信息论的角度对信息隐藏进行分析^[2]。他们定义了两个失真函数，分别对应于嵌入者和攻击者。两个失真函数都是受限的既说明嵌入者不能随意地改变载体文本，也说明攻击者不能随意地篡改文本。他们还估算了隐藏容量，这是一个嵌入者和攻击者之间游戏的一个值。几种特殊情况下的容量的显示公式被明确提出，显示出很多现存文献中的信息隐藏系统远未达到容量上限。大部分的讨论更适合图像或音频这样的载体，因为自然文本很难建立图像音频那样的数学模型。处理自然语言文本和处理图像音频非常不同，例如：在自然语言处理中定义距离是个棘手的问题，三角不等式未必得到满足。

在大部分自然语言水印相关的文献中，水印算法得到了详细充分的描述，但是很少有关于这些算法的质量和安全性的正式评价。仅有一部分的文献提到了他们的方案由于设计的特点可以抵御某些类型的攻击。

自然语言水印算法按照其利用的文本特点可以分为语法修改、语义修改两大类。

M. Atallah在2001年等人提出了将信息隐藏在句子的解析语法树结构表示中，被选中的句子承载水印^[3]。文中还提出了很多实用的转换方法，例如连词移动，句子分裂和被动化等。他们的工作在概念层面经过测试。之后在2006年，Gupta等人提出一个局部攻击的水印方案^[4]。在这个方案里，段落的顺序和句子的顺序按照密钥重新排列，并使用多种英文句子变换方法以改变句子的长度，使得在句子的势(cardinality)的最低有效位(Least Significant Bits，简称LSB)中嵌入水印。

语义类的算法更接近与建立一个实际系统。Keith Winstein^[5]提出了一个词语水印系统，名为Tyrannosaurus Lex。在T-Lex中，大约两万个英语单词被分为同义词集合，这些集合包含2到13个词语，平均值是2.56。水印的比特在同义词替换的过程中被嵌入。在IDW2003中，Chiang等人提出了使用同义词替换的中文自然语言水印^[6]，这意味着不仅对于英文文本，对于中文等其他文本也能使用这些方法。

对于攻击自然语言水印的研究相对较少。Taskiran等人提出了对于基于词语的自然语言隐写系统的攻击方法^[7]。对于隐写修改过的句子准确率为84.9%，对于非隐写的句子准确率为38.6%。Chen Zhili等提出了基于词分布的统计^[8]，实验结果显示当文本大小为10K时，对于隐写文本和非隐写文本的总体准确率为95.5%，且准确率随着文本规模的上升而上升。

文章的第二部分描述了我们所用的自然语言水印的通讯模型；第三部分提供了预备知识特别解释了计算不可区分的概念；第四部分介绍了我们的自然语言水印嵌入质量评估方案，和构造针对特定检测器的交互证明系统的方法；第五部分用我们的方案评价现有的几个自然语言水印算法；最后第六部分总结并展望了未来可进行的工作方向。

2 通讯模型

Simmons在1984年提出了“囚徒问题”并讨论了隐信道^[9]。在囚徒问题中，两个囚徒被关押在各自的单人牢房，他们之间唯一的通信手段是由看守传递信息，看守可以检查信息。Simmons的模型中的三方和水印通信模型中的三方相近。在水印的实施过程中，首先发行者将水印嵌入到载体媒体中，嵌入完成后发行者不再改动含水印的媒体。攻击者获得水印媒体后，试图移除或者修改水印

(责任编辑：adminadmin2008)