【技術】データ匿名化ではプライバシーの十分な保護を図れないかもしれない
Nature Communications
2019年7月24日
Technology: Data anonymization may be inadequate to protect privacy
不完全な匿名化データセットから個人が再特定化されるかどうかを評価する方法を示した論文が、今週掲載される。この論文は、個人のプライバシーを保護し、あるいはEU一般データ保護規則などのデータ保護法に定める要件を満たすためには、現在のデータ匿名化とデータ共有の方法では不十分である可能性を示唆している。
データサイエンスと人工知能は、医学と医療、ビジネス、ガバナンスなど、私たちの生活のさまざまな側面を一変させると期待されているが、大量の個人レベルの詳細データに依存しており、その収集と共有については、個人のプライバシーに関する懸念が生じている。データの匿名化とデータセットの一部公表は、プライバシー侵害の懸念への取り組みとして実施されてきたが、最近になって閲覧履歴、携帯電話、クレジットカードの各データを含む匿名化データセットの再特定化が成功し、こうした取り組みが不十分である可能性が示されている。
今回、Yves-Alexandre de Montjoyeたちの研究グループは、匿名化データセットから個人が正確に再特定化される可能性を正確に評価できるようにする統計的方法を開発した。これにより、たとえデータセットが不完全であっても、郵便番号、生年月日、性別、子どもの数などの属性がいくつか分かれば、個人の再特定化を高い信頼度で行うために十分となる場合が多いことが明らかになった。判明している属性の数が増えると、再特定化できる可能性が一気に大きくなる。例えば、米国マサチューセッツ州の人口の99.98%が、15種の人口統計学的属性を用いて特定できることが分かった。従って、著者たちは、サンプリングされたデータセットや部分データセットだけを公表する方法では、個人のプライバシー保護に十分でないと結論している。
doi: 10.1038/s41467-019-10933-3
注目の論文
-
11月13日
人工知能:数学競技でメダル級のAIシステムNature
-
11月13日
気候変動:ムンバイにおける異常降雨に関連した不均衡な死亡率Nature
-
11月7日
考古学:デジタル地図によりローマ帝国の道路網が10万キロメートル増えるScientific Data
-
11月6日
人工知能:より公平な人間画像データセットを目指してNature
-
11月5日
気候:極端な強風がタービンの限界を超えて動かす可能性があるNature Communications
-
11月4日
人工知能:言語モデルは信念を知識と事実から確実に識別できないNature Machine Intelligence
