Research press release


Nature Communications

Technology: Data anonymization may be inadequate to protect privacy



今回、Yves-Alexandre de Montjoyeたちの研究グループは、匿名化データセットから個人が正確に再特定化される可能性を正確に評価できるようにする統計的方法を開発した。これにより、たとえデータセットが不完全であっても、郵便番号、生年月日、性別、子どもの数などの属性がいくつか分かれば、個人の再特定化を高い信頼度で行うために十分となる場合が多いことが明らかになった。判明している属性の数が増えると、再特定化できる可能性が一気に大きくなる。例えば、米国マサチューセッツ州の人口の99.98%が、15種の人口統計学的属性を用いて特定できることが分かった。従って、著者たちは、サンプリングされたデータセットや部分データセットだけを公表する方法では、個人のプライバシー保護に十分でないと結論している。

A method that can estimate whether a person can be re-identified from an incomplete, anonymized dataset is presented in Nature Communications. The paper suggests that current methods of anonymization and data sharing may be inadequate to protect individual privacy or satisfy requirements set by data protection laws, such as the European General Data Protection Regulation.

Data science and artificial intelligence promise to revolutionize many aspects of our lives, including medicine and health care, business and governance. These methods depend on large-scale, detailed and individual-level data, the collection and sharing of which has raised concerns about individual privacy. Anonymization and the release of partial datasets have been used to address privacy concerns. However, the successful re-identification of anonymized datasets recently, including browsing histories, mobile phone and credit card data, have shown that these practices may be inadequate.

Yves-Alexandre de Montjoye and colleagues created a statistical method that enables accurate estimation of the likelihood for individuals to be correctly re-identified in any anonymized dataset. The authors found that knowing only a few attributes, such as post code, date of birth, gender and number of children, is often sufficient to re-identify individuals with high confidence, even if the dataset is incomplete. The likelihood of identification quickly increases with the number of known attributes. For example, 99.98% of people in Massachusetts would be identifiable based on 15 demographic attributes. Releasing only a sampled or partial dataset is therefore not sufficient to protect individual privacy, they conclude.

doi: 10.1038/s41467-019-10933-3

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

メールマガジンリストの「Nature 関連誌今週のハイライト」にチェックをいれていただきますと、毎週最新のNature 関連誌のハイライトを皆様にお届けいたします。