Research press release

【技術】データ匿名化ではプライバシーの十分な保護を図れないかもしれない

Nature Communications

Technology: Data anonymization may be inadequate to protect privacy

不完全な匿名化データセットから個人が再特定化されるかどうかを評価する方法を示した論文が、今週掲載される。この論文は、個人のプライバシーを保護し、あるいはEU一般データ保護規則などのデータ保護法に定める要件を満たすためには、現在のデータ匿名化とデータ共有の方法では不十分である可能性を示唆している。

データサイエンスと人工知能は、医学と医療、ビジネス、ガバナンスなど、私たちの生活のさまざまな側面を一変させると期待されているが、大量の個人レベルの詳細データに依存しており、その収集と共有については、個人のプライバシーに関する懸念が生じている。データの匿名化とデータセットの一部公表は、プライバシー侵害の懸念への取り組みとして実施されてきたが、最近になって閲覧履歴、携帯電話、クレジットカードの各データを含む匿名化データセットの再特定化が成功し、こうした取り組みが不十分である可能性が示されている。

今回、Yves-Alexandre de Montjoyeたちの研究グループは、匿名化データセットから個人が正確に再特定化される可能性を正確に評価できるようにする統計的方法を開発した。これにより、たとえデータセットが不完全であっても、郵便番号、生年月日、性別、子どもの数などの属性がいくつか分かれば、個人の再特定化を高い信頼度で行うために十分となる場合が多いことが明らかになった。判明している属性の数が増えると、再特定化できる可能性が一気に大きくなる。例えば、米国マサチューセッツ州の人口の99.98%が、15種の人口統計学的属性を用いて特定できることが分かった。従って、著者たちは、サンプリングされたデータセットや部分データセットだけを公表する方法では、個人のプライバシー保護に十分でないと結論している。

A method that can estimate whether a person can be re-identified from an incomplete, anonymized dataset is presented in Nature Communications. The paper suggests that current methods of anonymization and data sharing may be inadequate to protect individual privacy or satisfy requirements set by data protection laws, such as the European General Data Protection Regulation.

Data science and artificial intelligence promise to revolutionize many aspects of our lives, including medicine and health care, business and governance. These methods depend on large-scale, detailed and individual-level data, the collection and sharing of which has raised concerns about individual privacy. Anonymization and the release of partial datasets have been used to address privacy concerns. However, the successful re-identification of anonymized datasets recently, including browsing histories, mobile phone and credit card data, have shown that these practices may be inadequate.

Yves-Alexandre de Montjoye and colleagues created a statistical method that enables accurate estimation of the likelihood for individuals to be correctly re-identified in any anonymized dataset. The authors found that knowing only a few attributes, such as post code, date of birth, gender and number of children, is often sufficient to re-identify individuals with high confidence, even if the dataset is incomplete. The likelihood of identification quickly increases with the number of known attributes. For example, 99.98% of people in Massachusetts would be identifiable based on 15 demographic attributes. Releasing only a sampled or partial dataset is therefore not sufficient to protect individual privacy, they conclude.

doi: 10.1038/s41467-019-10933-3

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

メールマガジンリストの「Nature 関連誌今週のハイライト」にチェックをいれていただきますと、毎週最新のNature 関連誌のハイライトを皆様にお届けいたします。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度