Gall rhwydweithiau synthetig gynyddu argaeledd rhai data tra'n dal i ddiogelu preifatrwydd unigol neu sefydliadol, yn ôl ystadegydd Penn State.
"Mae fy niddordeb allweddol wrth ddatblygu methodoleg a fyddai'n galluogi rhannu data cyfrinachol yn ehangach mewn modd a all helpu mewn darganfyddiad gwyddonol," meddai Aleksandra Slavkovic, athro ystadegau a deon cysylltiedig ar gyfer addysg raddedig, Coleg Gwyddoniaeth Eberly, Penn State. "Y nod yw bod yn gallu rhannu data cyfrinachol gyda'r risg feintiol bosibl iawn ar gyfer darganfod gwybodaeth sensitif a sicrhau cywirdeb ystadegol a chywirdeb."
Mae Slavkovic wedi canfod atebion i'r broblem preifatrwydd data hwn trwy gydweithio rhyngddisgyblaethol, yn enwedig gyda gwyddonwyr cyfrifiadurol a chymdeithasol. Mae ei hymchwil yn canolbwyntio ar amrywiol ddata, gan gynnwys data rhwydwaith sy'n dal gwybodaeth am berthynas rhwng endidau fel unigolion neu sefydliadau. Adroddodd ei hymagweddau at ddarparu rhwydweithiau synthetig sy'n bodloni syniad o breifatrwydd gwahaniaethol heddiw (16 Chwefror) yn ystod cyfarfod blynyddol 2019 y Gymdeithas Americanaidd ar gyfer Ymlaen Gwyddoniaeth yn Washington, DC
Mae preifatrwydd gwahaniaethol yn darparu sicrwydd mathemategol y gellir ei brofi o lefel y colled preifatrwydd i unigolion.
Mae gwyddonwyr am gael mynediad at ddata a gasglwyd gan eraill ar gyfer eu hymchwil, ond gallai mynediad o'r fath hefyd gyfaddawdu preifatrwydd personol, hyd yn oed ar ôl cael gwared ar ddata a elwir yn bersonol a adnabyddir yn bersonol.
"Mae digonedd o ddata ategol yw'r prif gosb," meddai Slavkovic. "Gyda datblygiadau methodolegol a thechnolegol wrth gasglu data a chofnodi cysylltiadau, mynediad haws i amrywiaeth o ffynonellau data y gellid eu cysylltu â set ddata wrth law, a gofynion asiantaethau ariannu i rannu data, mae'r risgiau i breifatrwydd data yn cynyddu. Ond, dod o hyd i dda mae atebion ar gyfer rheoli colled preifatrwydd yn hanfodol er mwyn galluogi darganfyddiad gwyddonol cadarn. "
Byddai gwybodaeth sydd ar gael i'r cyhoedd o dreial cyffuriau ar gyffur HIV, er enghraifft, yn nodi pwy oedd yn y grŵp triniaeth ac a oedd yn y grŵp rheoli. Byddai'r grŵp triniaeth yn cynnwys pobl yn unig a gafodd eu diagnosio â HIV ac er bod y perchnogion data yn cadw manylion personol o'r set ddata honno, byddai rhywfaint o wybodaeth adnabod yn parhau. Gan fod cymaint o wybodaeth ar gael ar-lein heddiw mewn cyfryngau cymdeithasol ac mewn setiau data eraill, mae'n bosibl cysylltu y dotiau a nodi pobl, a allai ddatgelu eu statws HIV.
"Mae technegau i gysylltu dau set ddata, yn dweud cofnodion pleidleiswyr a data yswiriant iechyd, wedi gwella'n sylweddol," meddai Slavkovic. "Mewn un o'r canfyddiadau cynharaf, dangosodd Latanya Sweeny (sydd bellach yn Harvard), trwy gysylltu y math hwn o ddata, y gallwch chi nodi 87 y cant o'r bobl yng Nghyfrifiad yr Unol Daleithiau o 1990 yn seiliedig ar eu dyddiad geni, rhyw a 5 digid zip zip. Yn fwy diweddar, defnyddiodd ymchwilwyr tweets a metadata Twitter cysylltiedig i ddangos eu bod yn gallu adnabod defnyddwyr gyda 96.7 y cant yn gywir. "
Mae Slavkovic yn nodi nad pobl neu sefydliadau yn unig y mae eu data wedi'u cynnwys yn y cronfeydd data, ond y gall pobl y tu allan i'r gronfa ddata hefyd ddioddef rhag ymosodiad ar breifatrwydd, yn uniongyrchol neu drwy gymdeithas. Gallai cysylltiadau rhwng gwybodaeth mewn set ddata a gwybodaeth am gyfryngau cymdeithasol arwain at breifatrwydd difrifol - gallai rhywbeth fel statws HIV neu gyfeiriadedd rhywiol gael effaith ddifrifol os datgelir hynny.
Er bod preifatrwydd yn bwysig, mae setiau data a gasglwyd yn ffurfio ffynhonnell wybodaeth hanfodol i ymchwilwyr. Ar hyn o bryd, mewn rhai achosion pan fo'r data yn eithriadol o sensitif, rhaid i ymchwilwyr fynd i'r ystorfeydd data yn gorfforol i wneud eu hymchwil, gan wneud ymchwil yn anoddach ac yn ddrud.
Mae gan Slavkovic ddiddordeb mewn data rhwydwaith. Gwybodaeth sy'n dangos cydgysylltiad pobl neu sefydliadau - y nodau - a'r cysylltiadau rhwng nodau. Ei agwedd yw creu setiau data rhwydwaith sydd wedi'u newid ychydig, wedi'u hadlewyrchu, gyda rhai o'r nodau wedi'u symud, symudwyd cysylltiadau neu ymylon wedi'u newid.
"Y nod yw creu rhwydweithiau newydd sy'n bodloni'r gofynion preifatrwydd gwahaniaethol trylwyr ac ar yr un pryd yn dal y rhan fwyaf o'r nodweddion ystadegol o'r rhwydwaith gwreiddiol," meddai Slavkovic.
Gallai'r setiau data synthetig hyn fod yn ddigonol i rai ymchwilwyr fodloni eu hanghenion ymchwil. I eraill, byddai'n ddigonol i brofi eu dulliau a'u rhagdybiaeth cyn gorfod mynd i'r safle storio data. Gallai ymchwilwyr brofi cod, gwneud ymchwil ymchwiliol a dadansoddiad sylfaenol efallai wrth aros am ganiatâd i ddefnyddio'r data gwreiddiol yn ei safle ystorfa.
"Ni allwn fodloni gofynion pob dadansoddiad ystadegol gyda'r un math o ddata wedi'i newid," meddai Slavkovic. "Bydd angen data gwreiddiol ar rai pobl, ond gallai eraill fynd yn bell â data synthetig megis rhwydweithiau synthetig."