Anonymiserade demografiska data kan fortfarande användas för att identifiera dig

[ware_item id=33][/ware_item]

Profil av en man vars ansikte har identifierbar information om honom.


Om du är en av få personer som läser användarvillkor kan du hitta begravda i olika företags sekretesspolicy en klausul som säger att de kan samla in och sälja dina uppgifter till tredje part.

Uppgifterna, säger de, är anonymiserade, men en ny studie publicerad i Naturkommunikation visar att beroende på vad du delar kan det fortfarande vara möjligt att identifiera dig igen med en överraskande noggrannhet. Forskare från Imperial College London och University of Louvain i Belgien skapade en maskininlärningsmodell som kan identifiera individer från anonymiserade datasätt, även från ”mycket ofullständiga datasätt.”

Sådana avslöjanden kommer i en tid där fler människor är försiktiga med företag som säljer sina uppgifter till tredje parter och har försvårande integritetskonsekvenser för den för närvarande lagrade (och delade) anonyma information som många företag och akademiska institutioner samlar in och använder.

Hur fungerar data anonymisering?

Såvida du inte är helt utanför nätet, producerar du regelbundet mycket personuppgifter - från dina online-köp och dina körvägar till mer personlig information som dina hälsoregister.

Sådana datatrovar är gulddamm för annonsörer som vill förbättra sin inriktning (läs: Cambridge Analytica), och för forskare som letar efter trender inom folkhälsan och att lära sig ansiktsigenkänning till konstgjord intelligens.

För att skydda identiteten bakom uppgifterna har de allmänna "bästa praxis" varit att ta bort uppenbarligen identifierande information som namn, e-postadresser och telefon- och personnummer..

[Vill du ha mer integritets- och säkerhetsnyheter? Registrera dig för ExpressVPN-nyhetsbrevet.]

Föråldrade anonymiseringstekniker

Många av de populära anonymiseringsmetoderna har förblivit oförändrade sedan 1990-talet och har inte använt mer komplexa anonymiseringstekniker som svar på explosionen av onlinedata sedan.

Det har förekommit flera fall, som går tillbaka till redan 2000, av förment anonyma datasätt som släpptes och därefter återidentifierades.

Under 2017 "identifierade journalister framgångsrikt politiker i en anonymiserad databas för surfhistorik med 3 miljoner tyska medborgare och avslöjade deras medicinska information och deras sexuella preferenser."

Den nya studien pekar också på tidigare arbete där forskare kunde "identifiera enskilda individer i anonymiserade taxibanor i NYC, cykeldelningsresor i London, tunnelbanedata i Riga och datauppsättningar för mobiltelefoner och kreditkort."

Få datapunkter behövs för att identifiera dig igen

Forskarna bakom studien har byggt ett onlineformulär där du kan testa dina chanser att identifieras (endast för amerikanska och brittiska invånare) från ett hypotetiskt sjukförsäkringsbolag med bara tre datapunkter: ditt kön, födelsedatum och postnummer.

Om du till exempel var en amerikansk hane född den 12 november 1990 och för närvarande bor i postnumret 02139 finns det en 54% chansen att din arbetsgivare eller granne kan identifiera dig.

Anonymiserade demografiska data kan fortfarande användas för att identifiera digMen den procentandelen ökar när du lägger till fler attribut: Att lägga till din civilstånd bara kan öka chansen att identifiera dig upp till 99%. Andra attribut inkluderar antal fordon, arbetsklass (vald industri) och husägande.

Anonymiserade demografiska data kan fortfarande användas för att identifiera dig

Hur ska företag anonymisera våra uppgifter?

Det framgår av denna studie att de nuvarande anonyma metoderna inte tillräckligt skyddar människors integritet och lämnar dem sårbara för att identifieras igen av alla som har tillgång till den informationen..

Tyvärr är det inte mycket som individen kan göra här - det är upp till de företag och institutioner som lagrar, säljer och använder denna information för att ändra hur de anonymiserar uppgifterna. Förordningar som EU: s GDPR och Kaliforniens lag för konsumenters integritet kräver båda att individerna i alla datasätt är anonyma och omöjliga att identifieras om igen, men holdingbolag ansvariga kan vara svåra.

Ett sätt att förhindra återidentifiering i anonymiserade data är att anta differentiell integritet, en matematisk modell som noggrant lägger till en kontrollerad mängd slumpmässigt "brus" i data innan den skickas till en server, vilket gör datan lite mer ungefärlig än exakt, men skyddar individens integritet på ett adekvat sätt. Företag som Apple och Google har integrerat differentiell integritet i sin datainsamling.

Vi kommer att se differentiell integritet testas på ett stort sätt snart: det kommer att användas i nästa amerikanska folkräkning.

Steg du kan vidta för att skydda dig själv

Så när ett företag ber din tillåtelse att dela anonymiserad information med tredje parter, vad ska du göra? Överväg att anonymisera dina data själv. Inte varje företag har verkligen rätt till din verkliga födelsedatum, ditt faktiska postnummer, ditt kön eller din äktenskapliga status, eller till och med nödvändigtvis ditt riktiga namn. Om en detalj inte är avgörande för din användning av en viss tjänst, strö lite motstrid. (Och om ett unikt felstavat namn börjar dyka upp i din brevlåda, vet du exakt vilket företag som sålde dig ut.)

Ännu bättre, bara göra affärer med företag som är helt övertygade om vilken information de samlar in, som aldrig samlar in data de inte behöver, som aldrig delar eller säljer din personliga information med någon tredje part och som tar anonymisering av till och med grundläggande diagnostik information dödligt på allvar (och tillåter dig till och med att välja bort om du vill). Vi känner till minst en.

Anonymiserade demografiska data kan fortfarande användas för att identifiera dig
admin Author
Sorry! The Author has not filled his profile.