1. Datu maskēšanas jēdziens
Datu maskēšana ir pazīstama arī kā datu maskēšana. Tā ir tehniska metode, lai pārveidotu, modificētu vai aptvertu sensitīvus datus, piemēram, mobilā tālruņa numuru, bankas kartes numuru un citu informāciju, kad esam piešķīruši maskēšanas noteikumus un politikas. Šis paņēmiens galvenokārt tiek izmantots, lai novērstu jutīgu datu izmantošanu tieši neuzticamā vidē.
Datu maskēšanas princips: Datu maskēšanai jāsaglabā sākotnējie datu raksturlielumi, biznesa noteikumi un datu atbilstība, lai pārliecinātos, ka maskēšana neietekmēs turpmāko attīstību, testēšanu un datu analīzi. Nodrošiniet datu konsistenci un derīgumu pirms un pēc maskēšanas.
2. Datu maskēšanas klasifikācija
Datu maskēšanu var iedalīt statiskos datu maskēšanā (SDM) un dinamiskās datu maskēšanā (DDM).
Statisko datu maskēšana (SDM): Statiskai datu maskēšanai ir jāizveido jauna neprodukcijas vides datu bāze izolācijai no ražošanas vides. Sensitīvie dati tiek iegūti no ražošanas datu bāzes un pēc tam glabāti neprodukcijas datu bāzē. Tādā veidā desensibilizētie dati ir izolēti no ražošanas vides, kas atbilst biznesa vajadzībām un nodrošina ražošanas datu drošību.
Dinamiska datu maskēšana (DDM): To parasti izmanto ražošanas vidē, lai reālā laikā desensibilizētu sensitīvus datus. Dažreiz dažādās situācijās ir nepieciešami dažādi maskēšanas līmeņi, lai izlasītu tos pašus sensitīvos datus. Piemēram, dažādas lomas un atļaujas var ieviest dažādas maskēšanas shēmas.
Datu ziņošana un datu produktu maskēšanas lietojumprogramma
Šādi scenāriji galvenokārt ietver iekšējo datu uzraudzības produktus vai stendu, ārēju pakalpojumu datu produktus un pārskatus, kas balstīti uz datu analīzi, piemēram, biznesa pārskatiem un projekta pārskatīšanu.
3. Datu maskēšanas risinājums
Parastās datu maskēšanas shēmās ietilpst: invalidācija, nejauša vērtība, datu nomaiņa, simetriskā šifrēšana, vidējā vērtība, nobīde un noapaļošana utt.
Nederība: Nederība attiecas uz sensitīvu datu šifrēšanu, saīsināšanu vai slēpšanu. Šī shēma parasti aizstāj reālos datus ar īpašiem simboliem (piemēram, *). Darbība ir vienkārša, bet lietotāji nevar zināt sākotnējo datu formātu, kas var ietekmēt nākamās datu lietojumprogrammas.
Nejauša vērtība: Nejauša vērtība attiecas uz jutīgu datu nejaušu nomaiņu (cipari aizstāj ciparus, burtus aizstāj burti un rakstzīmes aizstāj rakstzīmes). Šī maskēšanas metode zināmā mērā nodrošinās sensitīvu datu formātu un atvieglos turpmāko datu lietojumu. Var būt vajadzīgas maskējošas vārdnīcas dažiem jēgpilniem vārdiem, piemēram, cilvēku un vietu vārdiem.
Datu nomaiņa: Datu nomaiņa ir līdzīga nulles un nejaušu vērtību maskēšanai, izņemot to, ka tā vietā, lai izmantotu īpašas rakstzīmes vai nejaušas vērtības, maskēšanas dati tiek aizstāti ar noteiktu vērtību.
Simetriska šifrēšana: Simetriskā šifrēšana ir īpaša atgriezeniska maskēšanas metode. Tas šifrē sensitīvus datus, izmantojot šifrēšanas taustiņus un algoritmus. Šifrēšanas teksta formāts atbilst sākotnējiem datiem loģiskajos noteikumos.
Vidējs: Vidējo shēmu bieži izmanto statistikas scenārijos. Skaitliskiem datiem mēs vispirms aprēķinām to vidējo vērtību un pēc tam nejauši sadalām desensibilizētās vērtības ap vidējo vērtību, tādējādi saglabājot datu summu nemainīgi.
Nobīde un noapaļošana: Šī metode maina digitālos datus pēc nejaušas maiņas. Nobīdes noapaļošana nodrošina aptuveno diapazona autentiskumu, vienlaikus saglabājot datu drošību, kas ir tuvāk reālajiem datiem nekā iepriekšējās shēmas, un tai ir liela nozīme lielo datu analīzes scenārijā.
Ieteikuma modelis "ML-NPB-5660"Datu maskēšanai
4. Parasti izmantotās datu maskēšanas metodes
(1). Statistikas paņēmieni
Datu paraugu ņemšana un datu apkopošana
- Datu paraugu ņemšana: Sākotnējās datu kopas analīze un novērtēšana, izvēloties datu kopas reprezentatīvu apakškopu, ir svarīga metode, lai uzlabotu de-identifikācijas metožu efektivitāti.
- Datu apkopošana: kā statistisko paņēmienu (piemēram, summēšana, skaitīšana, vidējā vērtība, maksimālā un minimālā) kolekcija, ko piemēro īpašībām mikrodatos, rezultāts ir reprezentatīvs visiem ierakstiem sākotnējā datu kopā.
(2). Kriptogrāfija
Kriptogrāfija ir izplatīta metode desensibilizācijas efektivitātes desensibilizēšanai vai uzlabošanai. Dažādi šifrēšanas algoritmu veidi var sasniegt dažādus desensibilizācijas efektus.
- Deterministiskā šifrēšana: simetriska šifrēšana. Tas parasti apstrādā ID datus un, ja nepieciešams, var atšifrēt un atjaunot šifrētu tekstu sākotnējā ID, bet galvenais ir pienācīgi jāaizsargā.
- neatgriezeniska šifrēšana: hash funkciju izmanto datu apstrādei, ko parasti izmanto ID datiem. To nevar tieši atšifrēt, un kartēšanas attiecības ir jāglābj. Turklāt, ņemot vērā hash funkcijas iezīmi, var notikt datu sadursme.
- Homomorfā šifrēšana: tiek izmantots šifrēta teksta homomorfs algoritms. Tās īpašība ir tāda, ka šifrēšanas teksta darbības rezultāts ir tāds pats kā vienkāršā teksta darbība pēc atšifrēšanas. Tāpēc to parasti izmanto skaitlisko lauku apstrādei, bet tas nav plaši izmantots veiktspējas apsvērumu dēļ.
(3). Sistēmas tehnoloģija
Apspiešanas tehnoloģija izdzēš vai pasargā datu vienumus, kas neatbilst privātuma aizsardzībai, bet tos nepublicē.
- maskēšana: tā attiecas uz visizplatītāko desensibilizācijas metodi, lai maskētu atribūtu vērtību, piemēram, pretinieka numuru, ID karti apzīmēta ar zvaigznīti vai adrese ir saīsināta.
- Vietējā slāpēšana: attiecas uz īpašo atribūtu vērtību (kolonnu) dzēšanas procesu, nebūtisku datu lauku noņemšanu;
- Ierakstu nomākums: attiecas uz konkrētu ierakstu (rindas) dzēšanas procesu, nebūtisku datu ierakstu dzēšanu.
(4). Pseidonīma tehnoloģija
Pseudomannings ir de-identifikācijas paņēmiens, kas izmanto pseidonīmu, lai aizstātu tiešu identifikatoru (vai citu jutīgu identifikatoru). Pseidonīma metodes izveido unikālus identifikatorus katram atsevišķam informācijas priekšmetam, nevis tiešiem vai sensitīviem identifikatoriem.
- Tas var ģenerēt nejaušas vērtības neatkarīgi, lai atbilstu sākotnējam ID, saglabātu kartēšanas tabulu un stingri kontrolētu piekļuvi kartēšanas tabulai.
- pseidonīmu ražošanai var izmantot arī šifrēšanu, taču ir jāuztur pareizi atšifrēšanas atslēga;
Šī tehnoloģija tiek plaši izmantota daudziem neatkarīgu datu lietotāju gadījumā, piemēram, OpenID atvērtās platformas scenārijā, kur dažādi izstrādātāji vienam un tam pašam lietotājam iegūst atšķirīgus Openids.
(5). Vispārināšanas paņēmieni
Ģeneralizācijas paņēmiens attiecas uz identifikācijas paņēmienu, kas samazina izvēlēto atribūtu precizitāti datu kopā un sniedz vispārīgāku un abstraktu datu aprakstu. Ģeneralizācijas tehnoloģiju ir viegli ieviest, un tā var aizsargāt ieraksta līmeņa datu autentiskumu. To parasti izmanto datu produktos vai datu pārskatos.
- Noapaļošana: ietver atlasītā atribūta noapaļošanas pamatnes izvēli, piemēram, uz augšu vai uz leju kriminālistika, rezultātu iegūšana 100, 500, 1K un 10K
- Augšējā un apakšējā kodēšanas metodes: nomainiet vērtības virs (vai zem) slieksni ar slieksni, kas apzīmē augšējo (vai apakšējo) līmeni, iegūstot rezultātu "virs X" vai "zem x"
(6). Nejaušināšanas paņēmieni
Kā sava veida de-identifikācijas paņēmiens, nejaušināšanas tehnoloģija attiecas uz atribūta vērtības modificēšanu, izmantojot nejaušināšanu, lai vērtība pēc nejaušināšanas atšķiras no sākotnējās reālās vērtības. Šis process samazina uzbrucēja spēju iegūt atribūtu vērtību no citām atribūtu vērtībām tajā pašā datu ierakstā, bet ietekmē iegūto datu autentiskumu, kas ir raksturīgs ražošanas testa datiem.
Pasta laiks: 27.-2022.