Research press release

技術:個人間の交流のデータがあれば、長期にわたって匿名化データから特定の個人を識別できるかもしれない

Nature Communications

Technology: Interaction data may allow identification of anonymized individuals over time

個人間の交流の記録を用いれば、長期間にわたって匿名化データセットから特定の個人を特定できることを示唆する論文が、Nature Communications に掲載される。今回の知見は、この種のデータの取り扱いに関する現在の実務が、欧州連合の一般データ保護規則に定める匿名化の基準を満たしていない可能性が高いことを示唆している。

個人間の交流に関する詳細なデータは、メッセージングアプリ、携帯電話キャリア、ソーシャルメディアプロバイダーやその他のアプリによって収集されて、それらのサービスの運営や研究目的に利用されている。こうしたデータはこれまでに、個人の交流パターンの研究、流行性疾患の空間的拡散の予測、友人関係が政治動員に及ぼす影響の研究に用いられてきた。現行のデータ保護規制では、個人間の交流のデータは匿名化されていれば、ユーザーの同意なしに共同使用でき、売却できることになっている。

今回、Yves-Alexandre de Montjoye、Ana-Maria Cretuたちは、個人間の交流データが長期間にわたって安定しており、匿名化データセットから特定の個人を識別するために使用できることを明らかにした。著者たちは、深層学習技術を用いたモデルを開発し、これを個人の交流のネットワークに基づいて個人を識別するように訓練して、異なる期間中に収集された合計4万人以上のデータセットに適用した。このモデルは、ホップ数2の交流ネットワーク(個人と対象者が2ホップ離れた交流のネットワーク)に基づいて、全体の52%の個人を識別できた。また、このモデルは、個人の直接接触者(ホップ数1)を用いることで、人々を15%の確率で識別できた。個人の交流は、長期間にわたって安定しているため、著書たちは、ホップ数2の交流ネットワークを使って20週間後に24%の人々を識別することができた。さらに、このモデルを587人からなるBluetooth近接データセットに適用すると、26%以上の確率で個人の識別ができた。ただし、著者たちは、このモデルを接触者追跡プロトコル(GoogleやAppleの接触通知など)に適用できるとは考えていないと述べている。

著書たちは、今回の研究結果によって、交流に関する匿名化され、関連付けられなくなったデータから特定の個人を長期にわたって識別できる可能性があることが示されており、プライバシー法令の遵守に重要な意味を持つと考えられると主張し、セキュリティ対策(アクセス制御システム、プライバシー強化システムなど)を使って、再識別化を防ぐことができるという考えを示している。

Records of people’s interactions could be used to identify individuals in anonymized datasets across long periods of time, suggests a study published in Nature Communications. The findings suggest current practices when handling this type of data may not meet anonymization standards set by the European Union’s General Data Protection Regulations.

Fine-grained interaction data is collected by messaging apps, mobile phone carriers, social media providers and other apps in order to operate their services or for research purposes. It has been used to study the interaction patterns of individuals, forecast the spatial spread of epidemics, and the effects of friendships on political mobilisation. Under current data protection regulations this data can be shared and sold without the user’s consent, providing it is anonymized.

Yves-Alexandre de Montjoye, Ana-Maria Cretu and colleagues found that people’s interaction data remains stable over long periods of time and that this could be used to identify individuals in anonymized datasets. The authors developed a deep learning-based model, which they trained to identify individuals based on their interaction network, and applied it to a dataset of over 40,000 individuals collected over different periods of time. The model was able to identify 52% of individuals based on their 2-hop interaction network (interactions with individuals twice removed from the target individual). Using an individual’s direct contacts, the model could identify people 15% of the time. As the interactions remain stable over time, the authors were also able to identify 24% of people after 20 weeks using their 2-hop interaction network. When the model was applied to a Bluetooth close-proximity dataset of 587 people it could identify individuals more than 26% of the time. However, the authors note that they do not believe their model would be applicable to contact tracing protocols, such as Google and Apple’s Exposure Notification.

The authors argue their results demonstrate that anonymized and disconnected interaction data may be identifiable over long periods of time, which has implications for compliance with privacy legislations. They suggest that security measures including access controls and privacy-enhancing systems could be used to protect against this.

doi: 10.1038/s41467-021-27714-6

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

メールマガジンリストの「Nature 関連誌今週のハイライト」にチェックをいれていただきますと、毎週最新のNature 関連誌のハイライトを皆様にお届けいたします。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度