Research press release


Nature Communications

Technology: Interaction data may allow identification of anonymized individuals over time

個人間の交流の記録を用いれば、長期間にわたって匿名化データセットから特定の個人を特定できることを示唆する論文が、Nature Communications に掲載される。今回の知見は、この種のデータの取り扱いに関する現在の実務が、欧州連合の一般データ保護規則に定める匿名化の基準を満たしていない可能性が高いことを示唆している。


今回、Yves-Alexandre de Montjoye、Ana-Maria Cretuたちは、個人間の交流データが長期間にわたって安定しており、匿名化データセットから特定の個人を識別するために使用できることを明らかにした。著者たちは、深層学習技術を用いたモデルを開発し、これを個人の交流のネットワークに基づいて個人を識別するように訓練して、異なる期間中に収集された合計4万人以上のデータセットに適用した。このモデルは、ホップ数2の交流ネットワーク(個人と対象者が2ホップ離れた交流のネットワーク)に基づいて、全体の52%の個人を識別できた。また、このモデルは、個人の直接接触者(ホップ数1)を用いることで、人々を15%の確率で識別できた。個人の交流は、長期間にわたって安定しているため、著書たちは、ホップ数2の交流ネットワークを使って20週間後に24%の人々を識別することができた。さらに、このモデルを587人からなるBluetooth近接データセットに適用すると、26%以上の確率で個人の識別ができた。ただし、著者たちは、このモデルを接触者追跡プロトコル(GoogleやAppleの接触通知など)に適用できるとは考えていないと述べている。


Records of people’s interactions could be used to identify individuals in anonymized datasets across long periods of time, suggests a study published in Nature Communications. The findings suggest current practices when handling this type of data may not meet anonymization standards set by the European Union’s General Data Protection Regulations.

Fine-grained interaction data is collected by messaging apps, mobile phone carriers, social media providers and other apps in order to operate their services or for research purposes. It has been used to study the interaction patterns of individuals, forecast the spatial spread of epidemics, and the effects of friendships on political mobilisation. Under current data protection regulations this data can be shared and sold without the user’s consent, providing it is anonymized.

Yves-Alexandre de Montjoye, Ana-Maria Cretu and colleagues found that people’s interaction data remains stable over long periods of time and that this could be used to identify individuals in anonymized datasets. The authors developed a deep learning-based model, which they trained to identify individuals based on their interaction network, and applied it to a dataset of over 40,000 individuals collected over different periods of time. The model was able to identify 52% of individuals based on their 2-hop interaction network (interactions with individuals twice removed from the target individual). Using an individual’s direct contacts, the model could identify people 15% of the time. As the interactions remain stable over time, the authors were also able to identify 24% of people after 20 weeks using their 2-hop interaction network. When the model was applied to a Bluetooth close-proximity dataset of 587 people it could identify individuals more than 26% of the time. However, the authors note that they do not believe their model would be applicable to contact tracing protocols, such as Google and Apple’s Exposure Notification.

The authors argue their results demonstrate that anonymized and disconnected interaction data may be identifiable over long periods of time, which has implications for compliance with privacy legislations. They suggest that security measures including access controls and privacy-enhancing systems could be used to protect against this.

doi: 10.1038/s41467-021-27714-6

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

メールマガジンリストの「Nature 関連誌今週のハイライト」にチェックをいれていただきますと、毎週最新のNature 関連誌のハイライトを皆様にお届けいたします。