第10章 计算中的隐私本章要点r 隐私是安全性的一方面 r 鉴别在保护隐私中的作用 r 隐私与因特网r 新兴技术的隐私问题 隐私问题早在计算机出现之前就已经出现了但是计算机具有的快速处理、数据存储和传快速处理、数据存储和传输能力输能力,使得影响隐私的数据收集和关联成为可能因为隐私是机密性的一部分,所以也是计算机安全的一个方面 隐私的权利依赖所处的形势和被影响的群体隐私与安全的其他方面也可能产生冲突隐私是一个涉及很广的话题,它受计算机的影响但又不仅仅是一个安全话题本章仅讨论与计算机相关与计算机相关的部分10.1 隐私的概述10.1.1 信息隐私的相关问题 信息隐私包括三个方面:可控制的公开、敏感数据和被影响的主体 可控制的公开可控制的公开 隐私是什么?一个很好的定义是,隐私是指有权去控制谁可以知道关于某人、某人的交际和某人的特定活动的某些方面换句话说,某人自愿选择谁能知道关于自己的事和那些事的哪些部分 然而这个人又不能完全的控制它这个问题类似于计算机安全中的传播问题:任何人只要能够访问一个对象,就能将这个对象或它的内容无限制地复制、转移或传播给其他人 10.1.1 信息隐私的相关问题(续) 敏感数据敏感数据 大多数人认为应该保密的数据有(不考虑顺序): (1) 身份,私有数据的所有权和控制隐私公开的能力。
(2) 财政,信用卡和银行帐目细节 (3) 法律事务 (4) 医疗条件,药物使用,DNA,易得的疾病 (5) 政治观点:投票,看法,激进组织的成员资格 (6) 倾向性:宗教,性取向 (7) 生物测定,身体上的特征,测谎器的结果,指纹 (8) 日记、文学作品、信件、记录下来的想法等 (9) 与专家的特别通信,比如:律师、会计师、医生、顾问和教士10.1.1 信息隐私的相关问题(续) (10) 表现:学校的记录,工作的评分 (11) 阅读活动:阅读习惯,浏览的网页、音乐、艺术、视频等 (12) 飞行旅行数据,全部旅行数据,个人地址(现在和过去) (13) 通信:邮件、电子邮件、号码、免费信息订阅 (14) 历史:年轻时言行失检事件 (15) 非法活动,犯罪记录 # 一个人对隐私的看法常常依赖于两个方面:谁将被影响和文化,如,当前流行的隐私的规范是什么10.1.1 信息隐私的相关问题(续) 受影响的主体受影响的主体 个人、团体、公司、组织和政府都有他们认为敏感的数据我们可以使用诸如主体或所有者的术语来讨论那些影响人们和群体的隐私问题隐私是机密性的一个方面,其中机机密性和可用性密性和可用性之间的冲突最频繁。
例如,如果某人选择不在号码簿中公布号码,那就意味着一些人不能通过找到这个人10.1.1 信息隐私的相关问题(续) 小结小结 下面是关于隐私的相关问题: (1) 隐私是可以控制的公开:主体可以选择哪些个人数据可以被公开以及对谁公开 (2) 当公开一些信息之后,主体将隐私的很多控制权让给了接受者 (3) 哪些数据属于敏感数据由主体决定,人们对哪些数据是敏感的看法不同 (4) 个体,非正式团体和正式组织都有他们认为是私有的东西 (5) 隐私是有代价的,选择不公布某些数据就会限制某些利益10.1.2 与计算机相关的隐私问题 隐私在出现计算机之前就存在,计算机和网络只是影响隐私暴露的可能性公共的数据对于研究这些数据的人一直是公开的,但是计算机的快速处理及存储能力能使我们具有积累、查询和关联的能力搜索引擎可以让我们具有从海量数据中找到想要的数据的能力另外,网络的开放性和移动技术极大地增加了隐私暴露的危险性10.1.2 与计算机相关的隐私问题(续) 与计算相关的隐私的问题的8个方面: (1) 信息的收集信息的收集:信息数据只有在承认和明确同意的情况下被收集 (2) 信息的使用信息的使用:数据只用于某些特别的目的。
(3) 信息的保持信息的保持:数据只保留一段时间 (4) 信息的公布信息的公布:数据只对授权的人公开 (5) 信息的安全信息的安全:运用合适的机制对数据进行保护 (6) 访问控制访问控制:控制各种收集数据的任何访问方式 (7) 监控监控:运用日志来记录所有数据访问 (8) 策略变化策略变化:宽松的限制性策略不会被运用于已经获得的数据10.1.2 与计算机相关的隐私问题(续) 数据的收集数据的收集 我们既有存储海量数据的设备,也有需要存储到这些设备的数据尽管物理空间的限制无法去保存(和查找)海量印刷数据,但电子数据与其相比仅需要极少的空间就能保存(和查找)海量印刷数据 未被告知的允许未被告知的允许 虽然一些数据来源于公共和商业资源,但另外的一些是来自有目的的数据转移,更多的是一些私底下收集(即没有宣布就收集)的数据用户不知道第三种类型数据的收集,因此,是未被告知的允许10.1.2 与计算机相关的隐私问题(续) 失控失控 数据在因特网失控的情况可能很严重例如,实体A把一些消息放在了个人博客中接着假设不久又改变了想法想撤回消息,又删除消息然而这期间可能已有许多人看到了消息并且复制到其他博客或其他网页上, A就无法控制了。
可以看见,一旦一些信息在因特网上超出了个人的控制范围,它将永远不能被删除因特网像是一个大的历史档案馆,由于其上存在的档案、缓存和镜像网站,造成了被公布在网上的信息将永远无法完全删除第二个关于失控的问题,是涉及数据的泄露,例如,公司可能泄露员工的信息 数据的拥有权数据的拥有权 客户的信息细节被交易了,客户无法控制,或者说客户无法分享带来的利润在计算机出现之前,客户数据已有价值有了计算机,数据的容量和来源得到了飞速增长,但是主体仍然没有权力10.2 隐私的原则和策略 在美国,对于隐私和计算机数据库的兴趣至少可以追溯到20世纪70年代早期那时,一个委员会提出的隐私原则影响到了美国的法律和规则,甚至为其他国家的隐私立法铺平了道路10.2.1 公平信息策略 在1973年,RAND公司的Willis Ware提出了一套合理的信息实施规则 (1) 收集的限制收集的限制:数据的获取应合法和公平 (2) 数据的质量数据的质量:数据应该符合它们的目的、准确性、完整性和实效性 (3) 目的的说明目的的说明:如果数据对于某个目的是有用的,就应该能鉴别;反之,如果数据对于该目的已经无用,就应该被销毁 (4) 使用的限制使用的限制:只有在数据的拥有者同意或法律的授权下,数据才能被使用。
(5) 安全的防备安全的防备:防止数据丢失、破坏、销毁和误用的机制应该被建立 (6) 开放性开放性:可以获得这些信息,如数据的收集和存储以及个人数据系统的使用 (7) 个人的参与个人的参与:数据的主体有权访问和修改属于他的数据 (8) 义务义务:数据的控制者应该有义务去遵守原则规定的方法 # 这些规则描述了个体的权利,而没有描述对收集者的要求,也就是规则没有要求对收集数据的保护 10.2.1 公平信息策略(续) Turn和Ware认为收集的数据对于没有授权的攻击者来说是个有吸引力的目标,所以数据应该有自我保护能力他们提出了四种保护存储数据的方法: (1) 通过限制数据存储量来减少暴露,只保持必要的和经常使用的数据而不是全部 (2) 通过交换数据项或往数据中增加一些晦涩错误来降低数据的敏感性 (3) 通过移动或改变数据的身份来实现数据的隐藏 (4) 加密数据10.2.2 美国的隐私法律 1974年隐私法虽然只应用于美国政府所持有的数据保护上,但它体现了Ware提及的大多数的隐私规则它是美国最强的隐私法 后来的公平信用报告法、健康保险携带和责任法(HIPAA)、Cramm-Leach-Bliley、儿童网络隐私保护法、联邦教育权利和隐私法也分别在不同领域涉及隐私保护。
10.2.2 美国的隐私法律(续) HIPAA法的公布对公司保密策略的影响包括: (1) 对于数据转移(给其他组织)的声明比HIPAA法公布之前更加明确 (2) 消费者对他们数据的公开或散布仍然缺乏控制 (3) 声明变得长而复杂,使消费者难以理解 (4) 即使在一个工业部门里(例如药品公司),声明差异很大,使得消费者很难比较各个策略 (5) 声明在专门网页中是唯一的,意味着它更精确地覆盖了一个特定网页的内容和功能10.2.2 美国的隐私法律(续) 很多法律存在的一个问题是,法律的目标领域有重叠当然,还存在法律上的空白就像新的技术(比如计算机、因特网和)出现,要么现有的隐私法为了运用于新的技术不得不被重新解释,要么花时间等待新的法律的颁布有时法律的隐私规定只是法律的次要目的,而被法律的首要目的所隐藏10.2.3 美国政府网站的控制 (美国)联邦贸易委员会对于政府网站的隐私策略提出了要求政府网站必须解决5个隐私要素 (1) 通知通知:数据的收集者在收集消费者的个人数据前必须公开他们的信息行为 (2) 选择选择:对于被收集的个人数据将会被如何使用,消费者有权选择 (3) 访问访问:消费者应该能够查看和讨论关于他们的数据的准确性和完整性。
(4) 安全性安全性:数据的收集者必须采取有效的措施,以确保从消费者那收集的信息的准确性和安全性 (5) 强制性强制性:对于不遵守公平信息的行为,必须采取一个可靠的机制进行强制性的约束10.2.3 美国政府网站的控制(续) 在2002年,美国国会制定了一项电子政务法案,要求联邦政府机构把隐私政策公布到网上如下政策必须公开: (1) 将要收集的信息 (2) 信息被收集的原因 (3) 机构使用该信息的目的 (4) 这些信息将与谁共享 (5) 提供给个体的关于什么信息被收集和信息怎样被分享的通知 (6) 确保信息安全的方式 (7) 在隐私法和其他有关保护个人隐私的法律中,个体所享有的权利10.2.4 商业网站的控制 禁止欺诈行为禁止欺诈行为 (美国)联邦贸易委员会有权起诉那些从事欺诈交易和不公平商业行为的公司然而,这种行为却导致了一个荒诞的情况只要一家公司的隐私政策说了它会做或是至少没有说他们不这样做,这家公司就可以收集个人信息,并可以通过任何形式传给其他人声明一个与市场上的公司或者“第三方”共享数据的意图会使这种共享是可接受的,无论这个第三方是谁 10.2.4 商业网站的控制(续) 欺骗行为的例子欺骗行为的例子 (美国)联邦贸易委员会在2005年起诉了CartManager公司,这个公司使用了一个大家非常熟悉的网上购物软件去收集订单,获得客户的姓名和地址,然后决定运输方式以及支付细节。
一些零售商会在他们的网页中写出隐私声明,不会出售或分发客户的数据,但是CartManager确实出售了他们收集的数据联邦贸易委员会认为CartManager公司无视使用者以及他们公布的关于网上商品的政策10.2.4 商业网站的控制(续) Jet Blue航空公司从旅客那里收集数据,开始声称不会提供给第三方,之后,又将这些数据给国防部用于安检程序测试 Jet Blue获得数据的唯一理由就是用于处理机票费用这事件的问题在于:第一,Jet Blue违反了它自己的政策声明第二,国防部可以通过获取私人公司的数据绕过电子政务法案,这些数据本不能被政府部门收集 商业网站还没有相关的内容标准一些公司公布了他们必须遵守的详细的隐私声明另一方面,一些公司公或许可能根本就没有什么声明,这给公司以最大的灵活性因为他们什么都没说时,也就不可能出现撒谎的情况10.2.5 非美国的隐私原则 在1981年,欧洲理事会采用了第108公约保护涉及个人数据自动处理的个体,接着在1995年,欧盟对个人信息处理采用了95/46/EC指令95/46/EC指令又称为欧洲隐私指令,要求维持个体隐私的权利,主要内容如下: (1) 公平合法的处理。
(2) 收集应具有明确的合法目的,不能采用与这些目的不相符的处理方法 (3) 收集和将要处理的目的要充分、切题和不过分 (4) 随时保证数据的准确性可采用任何合理的措施去删除或纠正那些不准确或不完整的数据,这些数据已不能满足数据收集或进一步处理的目的 (5) 对于收集或进一步处理的数据,如果不再是必要的,则将它们保留在可识别数据主体的表格中10.2.5 非美国的隐私原则(续) 之后又增加了三个原则实现公平信息策略: (1) 敏感数据的特别保护敏感数据的特别保护:对于涉及敏感数据的数据收集和处理应该加以更严格的限制 (2) 数据转移数据转移:这个原则明确地限制个人信息的授权使用者在没有得到数据主体允许的条件下将数据转移给第三方 (3) 独立的审查独立的审查:处理个人数据的实体不仅仅应该有责任而且应该承担独立的审查 在不同的司法体系下,不同的法律不可避免地有冲突欧盟与美国在隐私方面关系紧张,因为欧盟的法律禁止在各个国家的公司和政府间共享数据,而美国的隐私法却不像欧盟那样严格10.2.6 匿名和多重身份 保护隐私的重要问题是保护我们的身份 匿名匿名 一个人可能想在匿名情况下做一些事情Mulligan列出了人们倾向于在网络上进行匿名活动的原因。
一些人是为了减少自己被歧视的担心同时,人们在研究什么是隐私事件时,如健康问题时,很可能去寻找他们认为匿名来源的第一手信息,当他们掌握很多情况时就会锁定一个人 匿名也会出现问题一个匿名的人如何对他所做的事情负责呢?一个守信的第三方可以完成诚实交易并且保持匿名10.2.6 匿名和多重身份(续) 多重身份多重身份有联系或者没有有联系或者没有 很多人已经有了多重身份在银行里某人持有一个123456的账号,在机动车辆局某人持有一个驾驶证编号2334567,在信用卡公司某人持有卡号为345678的信用卡,这些数字都是这个人的身份作为一名计算机工作者,我们知道可能用程序处理所有这些身份的链接,但是在设计解决方案时,一定要仔细地考虑到所有可能出现的问题10.2.6 匿名和多重身份(续) 正确的身份链接可以建立档案和排除匿名带来的隐私风险,但是错误的身份链接将对数据的使用和相关人的隐私带来严重的风险如果我们仔细地考虑就能从多方面判断系统可能出错的部分,但是解决方法可能昂贵和费时迅速但不准确的方法也会影响隐私 使用假名使用假名 假名的使用假名的使用(pseudonymity)是一种隐私保护形式瑞士银行账户是一个假名使用的典型例子。
每一个客户都有一个唯一的号码去访问账号任何人拥有这个号码都可以进行交易(显然这里有额外的防止猜测的保护方法)10.2.7 政府和隐私 政府收集和存储关于公民、居民和旅游者的数据政府促进和规范商业和其他各种个人的活动,在这些角色中,政府既是隐私的保证者和规范者,又是隐私数据的使用者政府使用隐私数据应该被控制 鉴别鉴别 政府在个人鉴别中扮演了复杂的角色政府用鉴别关键字和认证关键字来规范商业行为有些时候,政府会基于这些关键字从其他地方获取数据在这些复杂的角色中,政府可能会滥用数据和违犯隐私权10.2.7 政府和隐私(续) 数据访问风险数据访问风险 从其他部门获取数据有以下风险: (1) 数据错误数据错误:范围从撰写错误到不正确的解析 (2) 不正确的链接不正确的链接:两个或更多的正确的数据元素被错误地链接到了某个推测的公共元素上 (3) 格式与内容的差异格式与内容的差异:精确性、正确性、格式和语义错误 (4) 目标性错误目标性错误:从一个有意提供错误数据的数据源收集数据 (5) 误报误报:一个不正确的或过时的结论 (6) 任务扩展任务扩展:为了某个目的而获得的数据用于其他更广的范围 (7) 缺乏保护缺乏保护:由于处理这些数据的方法导致数据完整性出现问题。
10.2.7 政府和隐私(续) 防止隐私丢失的措施防止隐私丢失的措施 下面几个措施可以帮助政府保护隐私数据的安全 (1) 数据最小化数据最小化:使用最少的数据来完成任务 (2) 数据隐匿性数据隐匿性:尽可能地用不可追踪的代码来替代身份信息,但是必须确保这些代码不能关联到其他可能泄露敏感信息的数据库 (3) 审计跟踪审计跟踪:记录下谁在什么时候访问过数据 (4) 安全性和可控的访问安全性和可控的访问:对敏感的数据给予充分的保护和访问控制10.2.7 政府和隐私(续) (5) 培训培训:保证有权访问数据的人能够知道要保护什么和怎么保护 (6) 质量保证质量保证:综合考虑哪些数据该被收集、数据怎样被存储、它的生命周期以及决定哪些是有用数据的相关因素 (7) 严格使用严格使用:审查数据的所有使用,以决定这些使用是否与这些数据被收集的目的和处理方式相符 (8) 数据留位数据留位:尽可能地让数据同原始所有者在一起 (9) 策略策略:确立明确的策略来保护数据隐私10.2.8 身份窃取 身份窃取就是盗用别人的身份 例如,使用一张新的信用卡,而卡冒用别人的名字就是身份窃取很少有独特的技术可以遏制身份盗窃。
也很少有公司和机构被建立,用以专门去解决身份鉴别的问题10.3 认证和隐私 认证:我们有一个身份,还有一些认证的数据,我们咨询待认证的数据与给定的身份是否相匹配鉴别:只有认证数据,并询问哪个身份与认证者一致对于第一种,可以说样本与数据库里的模版匹配程度达到一定百分比,基于这个百分比来决定匹配或者不匹配对于第二种问题,我们甚至不知道这个主体是否在数据库里于是,即使我们找到一些可能在很多方面的匹配,也不知道在数据库里的模版之外是否还有更好的匹配 10.3.1 认证意味着什么 认证可以涉及3个不同的事物:我们认证个体个体、身份身份或者属性属性个体是一个唯一的人身份是一个字符串或者相似的描述符,但是并不需要与一个特定的人相关,也不需要每个人只能有一个名字当我们证实一个人具有某属性时,就鉴别了其属性属性是一种特性例如,一些地方要求人需要年满21岁才能喝酒精饮料;一个俱乐部的门卫检查一个人是否已经满足年龄要求,然后在这个人的手上印上标记来表示他已经年满21岁 当我们把这些不同的鉴别混淆起来后,隐私问题就浮现出来了当一个数据值有两个或者更多的用途时,拥有它的人能把它用做其他目的此外,将一个身份与一个人关联起来需慎重对待。
10.3.1 认证意味着什么(续) 个人认证个人认证 现在还非常缺乏识别一个人的有效方法 身份认证身份认证 一个人一天可能发现有10到20个不同的方式用于鉴别自己的身份从隐私的立场上,也许有或者没有方法连接这些不同的身份有时,我们不想将一个行为与我们的身份相关联例如,一个匿名的消息或是告密者的可以匿名揭发非法或不正当的活动但随着数据的积累,使得联系成为可能理论上,这些数据与无数其他数据没有什么区别,但一些人只要研究一下那个消息的时间就能将这些行为关联起来因此,为了保护隐私,我们将阻止关联这些记录的尝试10.3.1认证意味着什么(续) 匿名的记录匿名的记录 隐私的一部分是联系,例如,某人叫Erin,某人患有糖尿病这两个事实都不敏感但如果将Erin和患有糖尿病联系起来就变得敏感了医疗研究者希望通过研究人口来决定疾病发生率、普遍因素、趋势和模式为了保护隐私,研究者经常处理匿名记录,这些数据的身份信息被删除了删除足够的信息去阻止身份的暴露是很困难的,并且还会限制研究实践表明,实现数据的有效匿名是非常困难的例如,在身份确认上,研究表明使用5位邮政编码、性别和出生日期的组合就能鉴别出87%的美国人。
10.3.2 结论 认证和鉴别产生这种混淆的原因,部分是由于人们没有真正地区别它们的内涵认证依赖某些东西去证实一个属性这些诸如鉴别号码、生日或者姓名通常又被用作数据库关键字,而这对隐私产生负面影响我们已经讨论了不愿意被识别的情况在一定场合,可以用匿名和假名但是,利用计算机在一定程度上能够实现数据收集和关联,这使得匿名和假名的愿望破灭10.4 数据挖掘10.4.1 政府数据挖掘 许多的政府数据收集和分析都是私底下进行的一些步骤没有公开,其他的是有意地加以掩饰因此,人们往往对缺乏监督的政府有种恐惧心理而数据挖掘的不完整性或不完美性更加增加了人们的忧虑10.4.2 隐私保持的数据挖掘 一种原始且低效的方法是,从将要被挖掘的数据库中去除所有识别信息然而有时,这些识别信息正是数据挖掘的目标所在更重要的是,即使从数据库中把明显的识别信息删除,还是存在识别的可能 关联的隐私关联的隐私 关联包括普通领域数据库的连接致力于保持关联的隐私就是试图控制这个联系数据扰乱的一种形式就是交换数据域去阻止数据连接交换所有数据值将妨碍有用的分析,但有限的交换能取得隐私和准确性之间的平衡在一个已经很弱的关联进行交换之后,它就有可能由于太微弱而不明显。
开始时的强关联也许仍然明显,但是强度已经减弱值-交换是一种在数据挖掘过程中,有助于获得某种程度的隐私和准确性的技术10.4.2 隐私保持的数据挖掘(续) 聚合的隐私聚合的隐私 聚合没有直接威胁隐私政府统计则充分显示了这一点:人口普查数据、劳动力统计和学校结构等都显示了团体(比如邻居或者学校区域)的发展趋势和类型,而不侵犯任何个人的隐私如果数据或多或少地在数据库的子集中出现,则通过少量的方程组即可泄露隐私数据对于聚合,数据扰乱也有作用使用数据扰乱,可以往每个数据值中加入少量正的或负的错误项在给定扰乱后的数据分布和给定加入错误后的分布条件下,判断基本数据的分布(不是具体值)还是很有可能的另外,分割数据库的方法也可以保障隐私 10.4.2 隐私保持的数据挖掘(续) 数据挖掘和隐私总结数据挖掘和隐私总结 数据挖掘和隐私不是排他的:我们可以从数据挖掘中推导出结果但又不牺牲隐私当然,在进行数据扰乱时会破坏一些准确性一个论点是减弱推论正确性,会严重地影响弱的结果;强的结果不如本身那么强 但是,隐私也不是自动存在的如果不进行检查,那么数据挖掘就有可能损害隐私安全专家需要继续呼吁数据挖掘中的隐私安全10.5 网站上的隐私 因特网可能是隐私的最大威胁。
匿名性是因特网的一个优点,同样也是一个缺点匿名性只是表面的,至少是单方面的10.5.1 了解环境 因特网就像一个大且随意的集市恶魔任何人说的每句话都可能被他人听到因特网认证通常证实用户的身份,而不是服务者的身份,所以用户不能确认网站是否合法10.5.2 网上付款 网上支付一般有两种途径:客户出示信用卡给零售商,或者客户通过付款系统 信用卡付款信用卡付款 零售商尽最大努力来查询信用卡的使用是否合法对于客户来说,零售商是否会确保这些数据的安全则不能得到保证信用卡信息提供了许多用于关联数据库的静态关键字人们开始考虑一次性信用卡:只用于一次交易,或者在固定的短时间内使用这样,如果卡号被盗或被截获,它就不能再用另外,拥有多个卡号,可限制一个信用卡的卡号被用作危害隐私的一把钥匙的能力 支付方案支付方案 网络付款的另一种方式就是利用支付方案,如PayPal它的操作不像信用卡那样严格,所以PayPal提供的客户保护比信用卡弱但是,用户的信用卡和金融细节只有PayPal知道,这样就减少了被盗的可能性 10.5.3 门户网站注册 现在网站注册是很简单的通常注册也是免费的,人们只需要选择一个用户ID和口令一些网站想以此获得更多的用户点击数,从而可以卖给其他商家或出示给广告商用以说服他们做广告。
人们通常很难记住多个ID号,所以他们主要使用默认简单的几个,常常是他们名字的一些变化在许多网站使用相同ID带来的问题是,ID成为数据库的一个关键字,通过它可将不同网站上相互独立的数据库关联起来更严重的是,ID往往与个人的真实姓名紧密关联,这种联系也使个人身份和其他数据联系起来10.5.3 门户网站注册(续) 当然,也可以试图记住一些不同的ID号或者用XXXYYYY来注册一个免费电子邮件账号,但从来也不使用它,这样做仅仅是为了满足强制性注册的要求10.5.4 这是谁的网页 注册的目的与新闻门户网站关系不大,但与广告提供商却关系密切在广告宣传之后,如果销售量增加,那么宣传就起了一定的作用但是广告商想要进一步宣传,于是便找到了网页 第三方广告第三方广告 网上广告也与消费者有很大关系:某人看到并点击它,因为它吸引了这个人的注意力,所以他们知道广告起了作用如果这个人点击且购买了产品,这时才实际支付了广告费当某人点击且打印并随后使用了优惠卷,优惠卷上的跟踪数字可以让他们联系到特定网站上的广告从广告商的角度,快速反馈很重要然而,所有这些行为都可以被跟踪和关联10.5.4 这是谁的网页(续) 竞争和服务竞争和服务 我们也许会为了赢得一项大奖而抓住每一次机会。
典型的就是提供一个月的免费服务只要用户注册,提供一个直到下个月才会被收费的信用卡号,就可以获得一个月的免费服务你一旦注册,信用卡号和姓名就成了连接其他数据库的关键字10.5.5 冲浪要留心 cookie cookie是网站提供的数据文件它们是一种将存储需求从服务器转移给用户的便利方式cookie是一个文本文件,存储在用户电脑中,cookie通常包含6个部分:名字、值、截至时间、服务器的路径、服务器的域名以及cookie传输是否使用安全链接(SSL)网站可以设置和存储任意多的cookie一些网站利用cookie避免了当客户访问一个网站时每次必须注册,这些cookie包含用户的ID和密码 对敏感性数据,网站必须加密或保护cookie中的数据而用户不知道数据是被保护或如何被保护路径和域名用于防止一个网站访问另一网站的cookie10.5.5 冲浪要留心(续) 第三方第三方cookie 一个网页也可包含其他组织的cookie,他们被称为第三方cookie例如,很多公司同意和DoubleClick公司来分享数据,允许网页有来自DoubleClick公司的不可视的广告这里第三方cookie能做的事情有: (1) 记录该浏览器浏览了特定网页的次数。
(2) 跟踪用户浏览的页面,无论是在一个网站内部还是多个网站之间 (3) 记录一特定广告出现的次数 (4) 匹配与访问相符的有显示广告的网站 (5) 在决定购买前,找到与用户购物相符的、用户曾看过的广告 (6) 记录并报告用某个搜索引擎搜索的主题10.5.5 冲浪要留心(续) cookie跟一台电脑联系在一起,而不是用户如果全家共用的一台电脑或该电脑被朋友借走,那么这种做法就欠妥至于隐私的其他方面,因为用户不知道他的哪些信息被收集了,所以用户也不知道已经收集的数据是否正确 10.5.5 冲浪要留心(续) 在窃听器活动的任何时候,cookie的网站都能够返回中心网站上述活动信息,也能够在多个伙伴cookie之间协同利用这个策略,DoubleClick公司建立了一个关于用户上网冲浪习惯的详细档案这些活动被称为概括 差不多所有网页访问都是匿名的但正如前面所说,通过档案中的登录账户、电子邮件地址和保存的注册信息可以识别出访问者在1999年,DoubleClick公司收购了Abacus公司Abacus公司有了一个市场数据库,数据库保存着从不同销售商那里得到的个人购物数据,有了这个数据库,DoubleClick公司可以将个人和地址联系起来。
10.5.5 冲浪要留心(续) Web bug 有种图像被称为透明图像或Web bug这种图像由1个象素构成浏览器会根据图像提供的地址请求文件Web bug激活的程序可能来自任何地方,它们激活其他链接向用户的电脑里下载图像、代码或其他bug所有这些活动都在用户无意识或没有控制的情况下发生因为许多网页使用这些图像并没有恶意,只是显示相关的内容所以结论不是要限制这种图像的使用,而是限制数据的收集和传播10.5.6 间谍软件 间谍软件是被设计用来监视一个用户的,它可以收集信息,包括用户键入的任何信息 键盘记录软件和间谍软件键盘记录软件和间谍软件 复杂的记录软件具有识别能力,只记录被访问的网页地址,或者更精确的只记录在一些特定网站的击键信息 键盘记录软件类似于窃听器间谍软件是个更广泛的名称,它包含键盘记录软件和一些其他程序这些程序记录用户的活动和一些系统信息,虽然并不是所有的击键信息都被记录间谍软件的用途很多,包括身份盗用和其他犯罪活动10.5.6 间谍软件(续) 有些间谍软件编写测试不全面,就会妨碍其他合法程序运行同时,一台电脑带有几种间谍软件,这些间谍软件之间可能会有冲突,这样就会对计算机性能产生严重影响。
间谍软件的另一个公共特点是很难清除 劫持软件劫持软件 另一类间谍软件是劫持软件,这种软件在安装后可能改变其初始目的例如,Altnet的文档声明:它的目的是将用户计算机未利用的计算自愿提供给其他商业伙伴诸如Altnet等服务的隐私问题是:尽管用户对他人使用他的空间计算资源或共享他的文件及其他资源进行了授权,但可能对机器上的其他敏感数据缺乏访问控制10.5.6 间谍软件(续) Adware Adware可以在弹出窗口中或者在主浏览器窗口中显示经选择过的广告Adware广告选择的依据是根据用户的特征,这些特征可以由浏览器或一个附带的程序通过监视用户计算应用进行收集,然后把这些信息发送给主服务器 Adware软件通常作为另一个软件的一部分进行默认安装Adware软件制造者会收取一定费用,把客户的广告显示给用户前,这些广告采用弹出窗口的方式,或覆盖合法广告,或占据屏幕10.5.6 间谍软件(续) 180Solutions 是一家公司,当用户访问网站时,这家公司会产生弹出式广告这家公司发布软件安装到用户计算机上,安装的软件会产生弹出式广告并收集数据告诉180Solutions,哪一条广告被显示了180Solutions会在第三方每次安装它的软件到用户机上时,向第三方付费。
一些第三方会利用用户机器上的漏洞而把这些软件主动地安装到用户机器上 这些应用中收集的信息很少被分析有传闻说,它们查找姓名、地址和其他个人识别信息 安装驱动安装驱动(Drive-By Installation) 这是一种哄骗用户安装软件的方式通常通过网页下载到本地的部分软件,哄骗用户安装例如,利用一个小图片覆盖安装对话框 “从y安装x”并将其替换成“你浏览器的安全更新”10.5.7 网上购物 在网上,不会像在销售架上看到价格标签那样,用户看到的仅仅是在网页上显示的标价例如,有消费者报告,在删除A的跟踪cookie后,该网站商品的价格从26美元降到22美元,因为该网站认为他是一个新的顾客而非一个老顾客 当商家和消费者都充分了解到:双方都可以认同和遵守交易的基本原则,那么交易是公平的而因特网本来就没有什么规则可言,在因特网个人隐私的丢失会导致认知力的天平向商家一方倾斜10.6 电子邮件安全性 电子邮件在网上传播时会暴露更严重的是,在没有任何警告的情况下,一封电子邮件的隐私安全可能在发送方或者接受方处被损害 10.6.1 电子邮件将发往何处,谁能够访问它 通常电子邮件经过发送方所属机构的SMTP服务器,发送方所属机构的ISP服务器,到接收方的POP服务器。
它们中的任何一环都可以记录其上的传播操作,甚至保存消息的一份副本10.6.2 电子邮件的拦截 电子邮件在因特网上传播时,它可能被拦截者阅读S/MIME和PGP是两种被广泛应用的电子邮件保护程序它们在电子邮件整个传输过程中保护邮件:从客户的工作站经过邮件代理,穿过因特网,最后到接受者的工作站这种保护跟加密的强度和加密协议的安全性有关一些机构会例行公事地复制所有发自他们计算机的电子邮件复制的目的是:一方面在某些法律事件中将这些电子邮件作为证据;另一方面监视一些包含不正当内容的电子邮件10.6.3 监控电子邮件 公司和政府能够合法地监控员工的邮件用途学校和实验室可以监控其内的计算机用途网络用户不应当对电子邮件和通常计算机使用中的隐私保护报以期望10.6.4 匿名电子邮件和转发 同样有许多原因让电子邮件需要匿名正如使用一样,顾客希望能匿名地提出建议或意见免费的邮箱可以在Yahoo,Microsoft Hotmail以及其他地方得到人们对于这些邮箱报以用完就丢的态度 简单的邮件转发简单的邮件转发 邮件转发系统使用可靠的第三方来发送信息到发送者所希望的接受者这里第三方可以使用假名技术 复杂的邮件转发复杂的邮件转发 这项技术依靠一组相互协作的主机,这些主机同意转发邮件,每个主机公布自己的公钥。
但其过量的负载意味着这种方法只有在匿名显得非常重要的时候才会使用10.6.5 欺骗和垃圾邮件 电子邮件很少有真实性的保证SMTP协议并不会验证列表发送者是否准确或合法源地址欺骗技术用于电子邮件并不困难这种局限性促进了垃圾邮件的发送,原因是不可能跟踪到真正的垃圾邮件发起者 钓鱼欺诈钓鱼欺诈(Phishing)类型的邮件信息引诱易受欺骗的用户透露敏感的个人信息由于因特网的局限性,很难控制这种威胁最好的防御方法是提高用户自身的保护意识10.6.6 小结 电子邮件暴露在从发送方到接受方的传播过程中,这其中有许多的节点会拦截电子邮件除非电子邮件是加密的,否则无法保证邮件不会被其他人访问对于商业、政府、学校和其他机构,网络管理员和管理者可以阅读任何发出的电子邮件信息10.7 新技术与隐私 这里讨论三项技术:第一项是用于追踪物体或人的广播技术第二项是促进选举的一组技术最后一项是用于语音的新方法它们都不存在内在的、影响隐私的东西,但是这些技术的应用过程都存在风险10.7.1 RFID 射频身份鉴别采用了一种小的、低功率无线电波发射器,称为RFID标签(RFID tag)RFID标签的现实应用包括: (1) 通行费用支付。
(2) 运输系统费用卡 (3) 库存物或清单的标签 (4) 通行证和身份证10.7.1 RFID(续) 消费类产品消费类产品 用户的衬衣、鞋子、钢笔、钱包、、CD机以及糖果包装纸都可以有RFID标签所有这些东西的任何一种均可用于跟踪,其他的则提供冗余信息 当一座城市的每一个角落都被安装了接收器时,就可以收集到用户的完整活动情况时间戳可以提供用户在两个接收器间逗留的时间这样,设计一个跟踪用户所有活动的系统是可能的 雇员的标签可以告诉别人用户在为谁工作;药瓶标签可以透露用户的病证状况;昂贵的钥匙链标签可暗示用户的财产在RFID出现以前,用户可以将自己的雇员ID放在兜里,隐藏自己的身份;而RFID出现以后,用户需要更加警惕不可察觉的无线电磁波信号10.7.1 RFID(续) 个体个体RFID标签标签 一些人无论穿什么都希望有身份标识还有一些处于特殊病证状况的人则把RFID标签注入手臂尽管有人愿意将标签植入体内,但他们也必须知道,一旦标签植入,他们就会对任何适当的接收器做出反馈,包括在大街上行走的时候 RFID的倡导者指出:这项技术现在还不能在发射器和接收器相距较远的情况下实现,并且接收器的价格昂贵。
这使得构建跟踪网络并不实际但我们不能把安全保障仅仅寄托于当前技术的可能性和经济上的可行性10.7.1 RFID(续) 安全与隐私问题安全与隐私问题 这里讨论了察觉个人敏感信息与跟踪个人行踪与之相关的还有正确性问题读装置(接收器)可能出现故障,软件也可能出故障这两种故障都可以导致错误信息 Juels提出了几种针对RFID的隐私保护方法:(1) 破坏标签;(2) 屏蔽标签;(3) 给标签赋予另一个ID号;(4) 信号加密10.7.2 电子投票选举 我们希望匿名投票,同时也希望所有的匿名投票是有效的我们希望电子选票既能给我们带来高效率,同时又不失隐私保护和准确性 计算机投票选举计算机投票选举 Shamos列举了公平选举的几个必要条件: (1) 必须对每个投票人的选择保密 (2) 每个投票人只能在一个投票点投票一次 (3) 投票系统必须能够防作弊,而且也要防止负责该系统的人去篡改 (4) 要精确计算票数 (5) 在投票期间,投票系统必须随时可用 (6) 检查跟踪系统要一直不停地探测在投票中的不规范行为,但不能泄露任何个人投票的选择10.7.2 电子投票选举(续) 就目前主机服务器的不安全性、因特网使用的脆弱性以及拒绝服务攻击的情况而言,是无法安全地使用远程投票来圆满完成重要公共选举的。
隐私和竞选过程隐私和竞选过程 实际上,与选举相关的隐私问题包括了注册过程的隐私、投票者信息的隐私和竞选过程的公众信任度但是考虑到因特网对隐私保护的力度很弱,电子选举的提议还有待观察10.7.3 VoIP与Skype 公司垄断经营,为客户提供隐私保护除非在紧急情况下或者法令要求的情况下,公司才会泄露隐私另外,由于终端是完全暴露的,所以这项技术只能相对地抵制窃听 技术和基于因特网的技术则极大地改变了现状Voice over IP(VoIP)是一种把语音在因特网上传输的技术VoIP的主要载体是Skype软件可以把听筒和话筒连接到计算机上VoIP具有价格优势对于已经有因特网宽带接入的用户而言,使用VoIP仅仅增加了网络接入费用和软件使用费用但这些技术也会牺牲隐私10.7.4 有关新技术的结论 上面讨论的技术都还在处于初期阶段,除非隐私被提升到一个更高的层次,否则是不会被考虑广泛应用于重要领域的如果我们在系统早期考虑了安全问题,将来安全就会有更多选择如果我们想往一个几乎完工的系统里加入安全因素,是非常困难的,隐私和安全分析应该与技术和应用开发一起进行10.8 本章总结 在本章关于隐私的讨论里,我们分析了安全、隐私、技术和信息是如何互动的。
隐私建立的第一步与其他计算机安全领域一样,我们必须先定义隐私策略,列出我们所需要的隐私接下来,研究个体、身份、属性和权限之间的影响不少实例表明,隐私在信息计算中没有被较好地支持最后,一些新兴话题如计算机投票、因特网以及RFID向我们表明,在飞速发展的技术中,我们保证隐私的要求应该被支持 隐私权利是一个涉及政治和技术的问题技术也许是一个比较简单的方面,一旦从政治方面决定了我们想要保护哪方面的隐私,就能选择应用技术。