Data er det materielle (eller fysiske) grunnlaget for å tilføre mennesker informasjon.[trenger referanse] Data er dermed det materielle grunnlaget for å overføre informasjon og kunnskap mellom mennesker ved kommunikasjon. Data kan registreres, lagres, behandles og flyttes av menneskeskapte innretninger som kalles datasystemer.

Ordet «data»

«Data» er flertallsformen av «datum», som opprinnelig betød gave, presang, eller det som er gittlatin (av verbet dare: «å gi», tu dō: «jeg gir»).

Den moderne bruken av ordet kan føres tilbake til filosofen Euklids bok Dedomena (gammelgresk: Δεδομένα)[1], skrevet ca 300 år f kr. Her brukte Euklid ordet «Dedomena» om informasjonene som er gitt i løsningen av geometriske problemer. I latinsk oversettelse ble boken hetende Data.

Ordet «data» brukes i dag oftest som et massesubstantiv som ikke bøyes i tall, på samme måte som «luft», «trøbbel» og «bestikk». I noen sammenhenger kan det likevel være grunn til å benytte entallsformen datum.

Definisjon av data

For at noe skal være data må det...

  1. ha en materiell basis som kan variere og
  2. variasjonene må stå for (avspeile, representere) noe annet.

Basis og variasjon

Data må ha en materiell (eller fysisk) basis som kan variere («lack of uniformity»[1]). Basis kan for eksempel være et papir og variasjonen trykksverte, eller basis kan være luft og variasjonen lydbølger. Filosofen Luciano Floridi definerer variasjon i et datum slik:

Representasjon

Ikke all materiell variasjon («lack of uniformity») er data. For å være data må variasjonen også stå for (eller avspeile, representere) noe annet. Naturlig forekommende lydstøy er derfor ikke data. Men lydbølger i luften er data når de avspeiler en annen persons handling med å lage språklyder (som igjen formodentlig avspeiler personens tanker).

Eksempler på data

Noen eksempler på data er:

Andre definisjoner av data

Av og til beskrives data som «råinformasjon», mens «informasjon» forklares som «velorganiserte» eller «sammensatte» data. I fagområdene som studerer informasjon forsøker man imidlertid å definere de to begrepene data og informasjon mer presist.

Typer av data

Det finnes en rekke måter å kategorisere data på. De er nyttige for å avklare databegrepet videre:

Primære og sekundære data

Siden Floridis definisjon av variasjon kun dekket primærdata, kan vi definere sekundærdata slik:

Eksemplene over var alle sammen eksempler på primærdata (materiell variasjon). Relaterte eksempler på sekundærdata (fravær av mulig variasjon) er:

Data som variasjon, signaler og symboler

Ifølge Floridi kan vi skille mellom data på tre nivåer:[3]

Klassiske data og kvantedata

Diskrete og analoge data

Numeriske og ikke-numeriske data

Binærdata og digitale data

Semantiske data og miljødata

Miljødata som observeres av mennesker eller måleinstrumenter kan så representeres som semantiske data, som når en skogforvalter noterer ned alderen på et nyfelt tre etter å ha telt antallet årringer eller når en astronom observerer og registrerer en supernova. Slike semantiske data har observasjonen av bestemte miljødata i en gitt situasjon som sitt semantiske innhold.

Det er vanlig å oppfatte kun semantiske data som ordentlige data, mens det vi kaller miljødata betraktes som ikke-data - en form for materielle tilstander eller hendelser.

Naturlige og kunstige miljødata

Vi kan skille mellom to typer miljødata:[3]

Kunstige miljødata grenser dermed mot semantiske data som er laget ved hjelp av innretninger, som et tekstbehandlingsprogram. Semantiske data skapes imidlertid mens innretningen er under kontroll av et menneske, mens kunstige miljødata skapes av innretningen mens den er overlatt til seg selv. Vi kommer inn i en gråsone når semantiske data i betydelig grad blir viderebehandlet av en datainnretning etter at de først er skapt av et menneske.

Av og til kan data som opprinnelig var semantiske siden bli brukt som miljødata, for eksempel når en stor tekstsamling blir brukt til analyse av ordforekomster eller når Google analyserer innholdet på internettet for å finne trender i ordhyppighet osv.

Identifiserende og attributtive data

Data vi lett tenker på som attributtive kan i virkeligheten være indeksikaliske når de utsettes for tung regnekraft, f eks ved bruk av maskinlæring. Kommersielle virksomheter som spesialiserer seg på å samle og rekombinere persondata for markedsførings- og andre kommersielle formål bruker for eksempel avanserte analyseteknikker for å slå sammen data fra ulike sosiale medier.[5] Selv om du bruker forskjellige navn på Twitter- og Snapchat-kontoen din, kan disse virksomhetene finne ut at kontoene med stor sannsynligjet tilhører samme person ved å sammenligne opplysninger om geolokasjon, påloggingstider, språk, favorittema og nettverk - opplysninger som i utganspunktet var attributtive brukes på en identifiserende måte. Det har også vist seg at (antatt attributtive) opplysninger om hvor en mobiltelefon vanligvis befinner seg på tre tidspunkter gjennom uken (f eks i arbeidstiden, om natten og i helgene) i svært mange tilfeller gjør det mulig å identifisere eieren av telefonen. [trenger referanse]

Utledede data

Nøytrale og sosiale konstruerte data

Data som samles inn automatisk av maskiner, som overvåkningskameraer, er også sosialt konstruerte, fordi det er mennesker som lagrer, installerer og opererer maskinene.

Autoritetsdata

Autoritetsdata er sosialt konstruerte data som er tillagt særlig vekt av en offentlig myndighet eller anerkjent organisasjon. De er typisk data om personer, familier, firmaer, organisasjoner, åndsverk, og ting generelt. Dataene kombinerer identifiserende og attributtive data med metadata som tilsammen gir en høy sannsynlighet for korrekt identifisering og sammenstilling. Autoritetsdata er dermed institusjoner: de er nyttige fordi mange mennesker og organisasjoner er blitt enige om å akseptere dem og bruke dem.[6]

Åpne og lukkede data

Store og små data

Metadata

Andre betydninger

Data kan også bety:

Referanser

  1. ^ a b Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 21. ISBN 978-0-19-955137-8. 
  2. ^ Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 23. ISBN 978-0-19-955137-8. «x being distinct from y, where x and y are two uninterpreted variables and the relation of ’being distinct’, as well as the domain, are left open to further interpretation» 
  3. ^ a b c d e f g h Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 30–36. ISBN 978-0-19-955137-8. 
  4. ^ a b Knut Vedeld og Rolf Venheim. «Data». Arkivert fra originalen 5. mars 2016. Besøkt 18. juni 2013. 
  5. ^ a b c d e Kitchin, Rob (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage. 
  6. ^ John Searle (2010). Making the Social World: The Structure of Human Civilization. Oxford University Press. 
  7. ^ Snyder, Lawrence (2015). Fluency with Information Technology - Skills, Concepts & Capabilities (6 utg.). Harlow, England: Pearson. s. 214. ISBN 1-292-06124-3.