Data Policy

(Danish below)

Personal data is defined by the European General Data Protection Regulation (GDPR) as personally identifiable information. Data from social media can almost always be associated with individual users. We therefore ask ourselves the following questions before we work on a dataset:

  • Is there a valid reason to treat this data?
  • Is it possible to treat the data in way where it is no longer personally identifiable?
  • To what extent has the data already been made public?
  • Which precautions can we take to ensure that data is not abused?
  • How can we ensure transparency?

 

Is there a valid reason to treat this data?

Data treatment is typically warranted by a legitimate research interest. Generally speaking, big parts of our everyday lives now take place online. It is therefore also of fundamental interest to the social sciences and humanities to understand what we do online.

On top of that, a number of more concrete considerations can come into play. The public conversation which used to take place in news papers and community halls now take place on digital media. Society has an interest in understanding the terms on which that happens. Phenomena like echo chambers, filter bubbles and fake news need to be investigated empirically. The internet has democratised access to the public sphere and made it possible for citizens and advocacy groups to have a voice without the blessing of an editor or the backing of a communications team. Online media, however, are not neutral in the way they provide visibility to particular positions in a debate. We need critical analyses of how attention is distributed.

 

Is it possible to treat the data in way where it is no longer personally identifiable?

It is hard to anonymise data from the internet, especially from social media, and especially when we are dealing with information that has already been published. Most interactions on social media can be associated with individual users, and many of these interactions are searchable. Hence, it is possible to find the author of a public comment through a simple Google search, provided that we know the text of the comment.

As a consequence, we always consider if it would be possible to aggregate data in a manner where individual users can no longer be identified. We weigh a number of concerns against each other. We are, for example, interested in analysing content and can therefore not immediate reduce data in way that discards text and images. Normally, however, it will be possible to carve the analysis up into different stages, ensure that data is not personally identifiable for longer or to a larger extent than necessary.

 

To what extent has the data already been made public?

The boundary between public and private can be hard to draw online. Unless we have informed consent we do not treat data, that has not already been published by the users themselves. Even if one could argue, for example, that discussions in a closed forum with several thousand members, cannot be considered private, the members of that forum could have a different expectation. On the other hand, if a comment has been written in an open and publically accessible forum, for example on Twitter, then we consider it to be self-published by the user. We do not treat information from the private profiles of the user.

 

Which precautions can we take to ensure that data is not abused?

We do not use data to influence individuals, we do not profile individuals, and we do not work to target content on the basis of personally identifiable information. Following from that we also make sure not to share personally identifiable information with others. We make sure that we do not keep data longer than necessary, and that we do not use data for other purposes than originally intended.

Even though our warrant to treat data is always a legitimate research interest, and even though we therefore always ensure that there is a research question that can justify data collection and treatment, we are often part of collaborations where partners benefit indirectly from the results of our analyses. Securing against abuse is therefore not only a matter of controlling who can treat data, but of ensuring that our own analyses are not problematic in their own right.

 

How can we ensure transparency?

We always announce the projects where we will be working with personally identifiable information. We strive to share the protocols describing how we treat data. We also share the tools, we use, and try as much as possible to use open source tools.

 

BELOW IS A FLOW CHART THAT WE USE AS A RULE OF THUMB TO DETERMINE WHAT KIND OF DATA WE ARE DEALING WITH AND WHAT KIND OF ACTIONS SHOULD BE TAKEN:

 

 

Persondata defineres efter det europæiske databeskyttelsesdirektiv som personhenførbare oplysninger. Når vi arbejder med data fra eksempelvis sociale medier kan det som udgangspunkt kobles til enkeltpersoner. Vi stiller os derfor følgende spørgsmål, inden vi påbegynder arbejdet:

  • Er der en god grund til at behandle data?
  • Er det muligt at behandle data på en måde, hvor det ikke længere er personhenførbart?
  • I hvilket omfang er data allerede offentliggjort?
  • Hvilke forholdsregler kan vi tage for at sikre, at data ikke misbruges?
  • Hvordan kan vi bedst muligt sikre transparens omkring vores arbejde?

 

Er der en god grund til at behandle data?

Vores hjemmel til at behandle data er typisk, at det har forskningsmæssig interesse. Det kan der være mange grunde til. Helt overordnet er det sådan, at store dele af vores hverdagsliv udspiller sig på og omkring internettet. Derfor er det også relevant for samfunds- og humanvidenskaberne at interessere sig for, hvad vi foretager os på internettet.

Derudover kan en række mere konkrete overvejelser gøre sig gældende. Store dele af den offentlige samtale, der før fandt sted i læserbreve, forsamlingshuse og partiforeninger, udspiller sig nu online. Det har samfundsmæssig interesse at vide, på hvilke præmisser det sker. Fænomener som ekkokamre, filterbobler eller falske nyheder skal således kunne undersøges. Internettet har demokratiseret adgangen til den offentlige talerstol og gjort det muligt for både interessegrupper og enkelte borgere at komme til orde i debatten uden en redaktørs velsignelse eller en pressetjeneste i ryggen. Men nettets medier er ikke neutrale i deres måde at skabe synlighed om bestemte synspunkter. Vi har brug for løbende at kunne forholde os kritisk til, hvem der får taletid og hvorfor.

 

Er det muligt at behandle data på en måde, hvor det ikke længere er personhenførbart?

Det er svært at anonymisere data fra internettet, især når det kommer fra sociale medier, og især når der er tale om allerede offentliggjorte informationer. Det skyldes, at de fleste interaktioner på et socialt medie er knyttet til individuelle brugere, og at disse interaktioner ofte er søgbare. Det er således ofte muligt at finde ud af, hvem der har skrevet en kommentar gennem en simpel Google søgning, hvis man kender teksten på forhånd.

Vi overvejer derfor altid, om det kan lade sig gøre at aggregere data på en måde, hvor enkelte brugere ikke længere kan identificeres. Her vejer vi en række hensyn overfor hinanden. Vi er for eksempel interesserede i at kunne analysere indhold og kan derfor ikke uden videre reducere data på en måde, hvor tekster og billeder forsvinder. Normalt vil det dog være muligt at dele en analyse op i nogle stadier, således at data ikke er personhenførbart i længere tid eller i større omfang end nødvendigt.

 

I hvilket omfang er data allerede offentliggjort?

Grænserne mellem det offentlige og det private kan være svære at trække på internettet. Med mindre vi har informeret samtykke behandler vi ikke data, der ikke allerede er offentliggjort af  brugerne selv. Selvom man eksempelvis kan argumentere for, at diskussionerne i et lukket forum med flere tusinde medlemmer ikke har privat karakter, så er det en gråzone, hvor medlemmerne kan have en forventning om det modsatte. Hvis en kommentar derimod er skrevet i et åbent og offentligt tilgængeligt forum, eksempelvis på Twitter, så betragter vi den som offentliggjort af brugeren selv. Vi behandler aldrig oplysninger fra brugeres private profiler.

 

Hvilke forholdsregler kan vi tage for at sikre, at data ikke misbruges?

Vi anvender ikke data til at påvirke individer, vi profilerer ikke individer, og vi arbejder i det hele taget ikke med at målrette indhold på baggrund af personhenførbare oplysninger. Derfor deler vi heller ikke personhenførbare data med andre. Vi sørger for, at vi ikke opbevarer data længere end nødvendigt, og at vi ikke anvender dem til andre formål end de er indsamlet til.

Selvom vores hjemmel til at behandle data altid er, at det har forskningsmæssig interesse, og selvom vi derfor altid overvejer, om der er et reelt forskningsspørgsmål, der retfærdiggør den påtænkte dataindsamling og -behandling, så befinder vi os ofte i samarbejder, hvor forskellige partnere får indirekte gavn af vores analyser. Det kan for eksempel være i forbindelse med strategiske forskningsprojekter, hvor både virksomheder, offentlige institutioner og interesseorganisationer kan indgå i samarbejdet. Derfor handler sikring mod misbrug af data ikke blot om at sikre, at vi har kontrol over, hvem der arbejder med data, men også om at sikre, at vi ikke selv bidrager til problematiske analyser af data.

 

Hvordan kan vi bedst muligt sikre transparens omkring vores arbejde?

Vi annoncerer altid de projekter, hvor vi behandler personhenførbare data. Vi forsøger så vidt muligt at dele de protokoller, der beskriver hvordan vi behandler data. Vi deler også de værktøjer, vi anvender, og forsøger så vidt muligt at anvende open source værktøjer.