Český statistický úřad provedl anonymizaci údajů ze sčítání lidu a údaje z jednotlivých sčítacích formulářů dal k dispozici akademikům. Problém je, že i po provedené anonymizaci, tedy po odstranění jména, přesné adresy nebo data narození, je soubor ostatních údajů natolik jedinečný, že se v souboru všech sebraných formulářů znovu neopakuje, to může podle neziskové organizace Iuridicum Remedium (IuRe) znamenat potenciální riziko zpětné deanonymizace a zneužití těchto údajů.
Údaje, které v současné době vybraná akademická pracoviště mají k dispozici, se skládají z 10.4 milionu řádků, z nichž každý odpovídá jednomu anonymizovanému sčítacímu formuláři. Téměř 94% takto anonymizovaných řádků je přitom jedinečných. U dospělých osob je toto číslo ještě vyšší. Co to může pro ty, kteří se sečetli znamenat?
„Na riziko, že připravovaná anonymizace nemusí stačit k ochraně soukromí občanů, kteří sčítací formuláře odevzdají, jsme opakovaně upozorňovali Český statistický úřad, Úřad pro ochranu osobních údajů i veřejnost již před samotným sčítáním,“ uvádí výkonný ředitel IuRe Jan Vobořil. „Celý případ ukazuje názorně nebezpečí tzv. data miningu. Zdánlivě anonymní údaje získávají zcela jiný kontext v případě, kdy jsou propojeny různé údaje vztahující se k jediné osobě.“
Podle IuRe existují reálná rizika zneužití údajů, byť k panice zřejmě zatím není důvod. Český statistický úřad si podle IuRe nejspíš sám uvědomuje, že údaje jsou i přes provedenou anonymizaci citlivé, protože akademici, kteří s nimi pracují, se musí zavázat k mlčenlivosti. Rizikem může být podle IuRe předání takto anonymizovaných údajů do Národního archivu, což podle zákona Český statistický úřad musí udělat. Poté bude mít přístup k těmto datům prakticky každý.
„Riziko zneužití údajů v případě, že se v této podobě ocitnou v archivu, určitě nepovažujeme za nereálné. Například pro různé marketingové či úvěrové společnosti bude zajímavé propojit údaje ze sčítání s údaji, které již mají k dispozici. V řadě případů, zejména u lidí bydlících v menších obcích s několika obyvateli, bude stačit znát třeba jen jméno, bydliště a věk, a tyto údaje půjdou propojit se všemi dalšími údaji, které dotyčný ve sčítacím formuláři vyplnil. Čím větší je obec, kde dotyčný bydlí, tím bude nutné, aby potenciální útočník měl k dispozici více propojitelných údajů. A co lze propojením údajů zjistit? Může jít o citlivé údaje jako je národnost, vyznání, ale i o údaje o zaměstnání, vzdělání nebo o počtu dětí. Pokud vezmeme v potaz, že se údaje týkají prakticky celé populace, tak jde o osobní údaje, která by zejména na marketingovém trhu byla placena zlatem,“ uzavřel Vobořil.