Начиная со списка покупок по кредитной карте и заканчивая вашими медицинскими записями и историей просмотра в Интернете, компании обмениваются и продают так называемые неопознанные наборы данных, содержащие записи о каждом вашем движении. Предполагается, что подобная информация лишена каких-либо конкретных подробностей, например, вашего имени, которые будут связаны непосредственно с вами. Тем не менее, так уж сложилось, что истинная анонимность ваших персональных данных намного сложнее, чем вы считали раньше.
Об этом говорит исследование, опубликованное сегодня в журнале Nature Communications. Исследователи определили, что, используя определенную модель обработки информации, "99,98% американцев будут правильно переопределены в любом наборе данных с использованием 15 демографических атрибутов".
В то время как 15 демографических атрибутов могут показаться слишком большим количеством данных, которые могут быть получены на одного человека, в исследовании эта цифра рассматривается в перспективе.
"Современные наборы данных содержат большое количество параметров по отдельным лицам", - пишут авторы исследования. "Например, информационный брокер Experian продал [компании по науке и аналитике данных] Alteryx доступ к де-идентифицированному набору данных, содержащему 248 атрибутов на домохозяйство, для 120 миллионов американцев».
То, что анонимные наборы данных могут быть расшифрованы, само по себе не новость. Еще в 2018 году исследователи на хакерской конференции DEF CON продемонстрировали, как им удалось легально и свободно получить явно анонимную историю интернет-просмотров 3 миллионов немцев, а затем быстро деанонимизировать ее части. Исследователи смогли выявить, например, привычку просматривать порно-ролики одного конкретного немецкого судьи.
Это новое исследование демонстрирует, насколько мало данных на самом деле нужно для того, чтобы точно определить конкретных людей из сравнительно редких наборов данных. "[Всего несколько] атрибутов часто бывает достаточно, чтобы повторно идентифицировать людей с высокой степенью достоверности в довольно неполных наборах данных", - отмечают авторы.
Чтобы добиться этого, по информации Verdict, исследователи выпустили онлайн-инструмент, который позволяет увидеть, насколько легко будет идентифицировать вас в предположительно анонимном наборе данных.
Иван Ковалев
VIA