Press "Enter" to skip to content

GDPR和云隐私政策的语义相似性

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

原文作者:Lavanya Elluri,Karuna Pande Joshi,Anantaa Kotal

 

原文标题:Measuring Semantic Similarity across EU GDPR Regulation and Cloud Privacy Policies

 

原文链接:https://ieeexplore.ieee.org/abstract/document/9377864

 

原文来源:2020 IEEE International Conference on Big Data (Big Data)

 

笔记作者:[email protected]

 

文章小编:[email protected]

 

摘要

 

数据保护机构制定了服务提供商在使用用户 个人识别信息 (Personally Identifiable Information, PII )进行大数据分析时必须遵守的政策和规则,数据法规和隐私政策通常以HTML和PDF格式的 短 、 非结构化 文本进行展示,因此需要一种自动化的方法来确定隐私政策中所指向的具体规则。本文实现了一个基于语义的框架,提取和比较短文本策略的上下文以提取语义相似的关键词,同时创建了一个 知识图谱 来 存储 语义相似的比较结果。

 

提出的方法

图1

 

A.预处理阶段

 

首先从GDPR中提取语义相似的关键字,取top100,如图2所示;再将原HTML/PDF格式的隐私政策转换为文本文件后,对其使用tokenization,stemming,lemmatization NLP word processing和stop words进行处理,提取出合适的关键词,见B。

图2

 

B.从隐私政策中确定相似度得分和关键术语提取

 

将隐私政策与GDPR作比较,使用 文本相似度 方法( Doc2Vec )确定其相似度分数(以弧度为单位), 分数较小代表该隐私政策更符合GDPR法规 。

 

根据从GDPR中提取出的关键术语,再从隐私政策中提取出与其相关的关键字,如图3所示。

图3

 

C.Permission & Obligations

 

本文还提取了某些模式关键字,如“will”、“should”、“could”、“shall”、“must”、“can”等,这些情态动词可以确定这个句子是属于 许可 (permission)还是 义务 (obligation)。例如,“could”对应的是“许可”,而“must”对应的是“义务”。

 

D.Knowledge Graph/Ontology Development

 

使用Protégé创建知识图谱,对本体的构建如图4所示,该本体捕获了法律法规与隐私政策之间的相似性细节。Regulators代表保护用户数据的法律法规制定者;Consumers代表用户;Providers代表有责任保护消费者隐私的组织。

图4

 

结果

 

隐私政策中出现类似关键术语的次数与得分成反比——即隐私政策中所含有的语义相似关键字越多,则其相似度得分越低,说明其越符合GDPR法规,如图5所示。这些隐私政策被填充为知识图谱的实例。

 

通过知识图谱,可以快速检查隐私政策合规性分数,开发者可以据此更新其隐私政策。

图5

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注