Data er det materielle (eller fysiske) grunnlaget for å tilføre mennesker informasjon.^{[trenger referanse]} Data er dermed det materielle grunnlaget for å overføre informasjon og kunnskap mellom mennesker ved kommunikasjon. Data kan registreres, lagres, behandles og flyttes av menneskeskapte innretninger som kalles datasystemer.

Ordet «data»

«Data» er flertallsformen av «datum», som opprinnelig betød gave, presang, eller det som er gitt på latin (av verbet dare: «å gi», tu dō: «jeg gir»).

Den moderne bruken av ordet kan føres tilbake til filosofen Euklids bok Dedomena (gammelgresk: Δεδομένα)^[1], skrevet ca 300 år f kr. Her brukte Euklid ordet «Dedomena» om informasjonene som er gitt i løsningen av geometriske problemer. I latinsk oversettelse ble boken hetende Data.

Ordet «data» brukes i dag oftest som et massesubstantiv som ikke bøyes i tall, på samme måte som «luft», «trøbbel» og «bestikk». I noen sammenhenger kan det likevel være grunn til å benytte entallsformen datum.

Definisjon av data

For at noe skal være data må det...

ha en materiell basis som kan variere og
variasjonene må stå for (avspeile, representere) noe annet.

Basis og variasjon

Data må ha en materiell (eller fysisk) basis som kan variere («lack of uniformity»^[1]). Basis kan for eksempel være et papir og variasjonen trykksverte, eller basis kan være luft og variasjonen lydbølger. Filosofen Luciano Floridi definerer variasjon i et datum slik:

x er forskjellig fra y, der x og y er to utolkede variabler og der relasjonen «er forskjellige fra» hverandre, og domenet er åpent for videre tolkning.^[2]

Representasjon

Ikke all materiell variasjon («lack of uniformity») er data. For å være data må variasjonen også stå for (eller avspeile, representere) noe annet. Naturlig forekommende lydstøy er derfor ikke data. Men lydbølger i luften er data når de avspeiler en annen persons handling med å lage språklyder (som igjen formodentlig avspeiler personens tanker).

Eksempler på data

Noen eksempler på data er:

skrifttegn i en bok eller på en dataskjerm
diagrammene i en monteringsanvisning for en møbel
lydbølgene vi lager når vi snakker
elektrisk strøm som beveger seg gjennom et nevron (en nervecelle)
en nevrotransmitter (en kjemisk forbindelse) som brer seg fra et nevron til nærliggende nevroner i en menneskehjerne
en fordypning i det refleksive materialet på undersiden av en DVD
et lysglimt (en gruppe fotoner) som beveger seg gjennom en fiberoptisk kabel
elektrisk strøm som går gjennom systembussen på en datamaskin
en elektrisk spenning i en av kontaktene i en transistor i en mikroprosessor
et flagg som henger på halv stang
den lysende grønne mannen i et trafikklys
årringene i et tre
et lysglimt på himmelen
en hund som bjeffer

Andre definisjoner av data

Av og til beskrives data som «råinformasjon», mens «informasjon» forklares som «velorganiserte» eller «sammensatte» data. I fagområdene som studerer informasjon forsøker man imidlertid å definere de to begrepene data og informasjon mer presist.

Typer av data

Det finnes en rekke måter å kategorisere data på. De er nyttige for å avklare databegrepet videre:

Primære og sekundære data

Primære data er tilstedeværelsen av en variasjon forskjell, f eks trykksverte på et avisark som former et skrifttegn, elektrisk spenning i en kobberkabel som angir biten "1", den lysende oljevarsellampen i en bil eller en årring i en trestamme. Se også Floridis definisjon lenger oppe på siden.^[3]
Sekundære data er fraværet av en mulig variasjon eller forskjell, f eks at samtalen vår ikke blir besvart når vi ringer en venn, at en lampe ikke begynner å lyse når vi slår den på, at skjermen på en mobiltelefon ikke gir respons når vi trykker på en tast eller at hunden i en kriminalroman ikke bjeffer på et bestemt punkt i fortellingen.^[3]

Siden Floridis definisjon av variasjon kun dekket primærdata, kan vi definere sekundærdata slik:

x er ikke forskjellig fra y i en situasjon hvor vi forventer at x og y skal være forskjellige, der x og y er to variabler vi ikke tolker og der også relasjonen "er forskjellige fra" og domenet er åpent for tolkning.

Eksemplene over var alle sammen eksempler på primærdata (materiell variasjon). Relaterte eksempler på sekundærdata (fravær av mulig variasjon) er:

et mellomrom mellom skrifttegnene i en bok
fravær av lydbølger før eller etter at noen har snakket
at det refleksive materialet på undersiden av en DVD er jevnt
mangel på elektrisk spenning i en mikroprosessor
fravær av lysglimt i en fiberoptisk kabel
en flaggstand hvor flagget ikke er heist
et trafikklys som ikke lyser
en hund som ikke bjeffer når noen går forbi

Data som variasjon, signaler og symboler

Ifølge Floridi kan vi skille mellom data på tre nivåer:^[3]

Data som variasjon er rene materielle variasjoner i basis. De eksisterer uavhengig av vår persepsjon og kognisjon, men må være der for at vi skal kunne oppfatte data. Floridi kaller dem villdata eller dedomena.
Signaler er en oppfattet forskjell mellom to tilstander eller verdier, for eksempel en lav eller høy spenning i et batteri eller en varsellampe som lyser eller ikke lyser.
Symboler er en oppfattet forskjell mellom tilstander som svarer til ulike verdier i et symbolsk system, f eks et alfabet.

Klassiske data og kvantedata

Vanlige eller klassiske data er data vi omgås i hverdagen, f eks i bøker og datamaskiner. De er grunnleggende basert på klassiske fysiske prinsipper og kan derfor bare variere på én måte (ha én verdi, være i én tilstand) på samme sted til samme tid.
Kvantedata har i stedet en materiell basis som følger kvantemekaniske prinsipper. Kvantedata kan f eks være elektroner (basis) med spinn (variasjon) eller fotoner (basis) med polarisering (variasjon). I motsetning til klassiske data, kan kvantedata ha flere verdier / være i flere tilstander på samme sted til samme tid (kvantesuperposisjon), hver av dem med en bestemt sannsynlighet. Når kvantedata avleses eller observeres kollapser de til klassiske data med én enkelt verdi (i henhold til sannsynlighetsfordelingen). Forskning på kvantedatamaskiner forsøker å utnytte kvanteegenskaper til å lage mer effektive datamaskiner: siden kvantedata kan ha mange verdier på en gang, vil en kvantedatamaskin kunne behandle alle de mulige dataverdiene samtidig, selv om det bare vil være mulig å avlese én vilkårlig resultatverdi for hver beregning (pga kollaps).

Diskrete og analoge data

Diskrete data vil si data som varierer mellom faste trinn, for eksempel mellom et begrenset utvalg signaler eller symboler, som tall og bokstaver. Diskrete data kan for eksempel representere type, antall og rekkefølge. Data i de sentrale delene av moderne dataystemer er for det meste diskrete.^[4]
Analoge data vil si data som varierer langs en trinnløs (eller kontinuerlig) skala. Analoge data kan for eksempel representere temperatur, høyde, vekt, tid og konsentrasjon av stoff. Analoge data var den vanlige datatypen i telefon, radio og TV inntil disse teknologiene gradvis bledigitalisert fra 1980-tallet og frem til i dag.^[4]

Numeriske og ikke-numeriske data

Numeriske data består av tall. De kalles også kvantitative data. Vanlige skrifttegn kan kodes som tall ved hjelp av standarder som Unicode eller dets forløpere ISO 8859-1 og ASCII.
Ikke-numeriske data angir andre egenskaper enn antall, størrelse eller mengde. De kalles også kvalitative eller kategoriske data.

Binærdata og digitale data

Binærdata er diskrete og numeriske data som er representert i det binære tallsystem, dvs i form av biter eller av tallene "0" og "1". Data i sentralenheten i moderne dataystemer er nesten alltid binære.
Digitale data er i praksis et annet ord for binære data. Når vi snakker om "digitale data" tar vi det vanligvis for gitt at de også er binære, selv om digitale data strengt tatt kan representeres i andre tallsystem enn det binære.

Semantiske data og miljødata

Miljødata er data som ikke skapt av mennesker i den hensikt å overføre informasjon, men som likevel tilsvarer (eller står for, representerer) noe annet enn seg selv.^[3] Eksempler er igjen årringene i et tre (som står for treets alder), varsellampen i bilen (som står for at bilen snart er tom for olje) eller de sterke lysglimtene fra en fjern stjerne (som står for at stjernen er blitt supernova).
Semantiske data er skapt av mennesker som med hensikt ønsker å overføre informasjon (kommunisere) til seg selv eller til andre mennesker.^[3] Vi sier at semantiske data er intensjonelle fordi de er laget med en hensikt og at de representerer et semantisk innhold fordi de overfører informasjon mellom mennesker. Eksempler er skrifttegnene som utgjør en avissartikkel og de digitale bitene som utgjør et program, regneark eller database.

Miljødata som observeres av mennesker eller måleinstrumenter kan så representeres som semantiske data, som når en skogforvalter noterer ned alderen på et nyfelt tre etter å ha telt antallet årringer eller når en astronom observerer og registrerer en supernova. Slike semantiske data har observasjonen av bestemte miljødata i en gitt situasjon som sitt semantiske innhold.

Det er vanlig å oppfatte kun semantiske data som ordentlige data, mens det vi kaller miljødata betraktes som ikke-data - en form for materielle tilstander eller hendelser.

Naturlige og kunstige miljødata

Vi kan skille mellom to typer miljødata:^[3]

Naturlige miljødata kommer fra naturen, slik som årringene i treet. Her har det ikke vært noen menneskelige intensjoner (hensikter) inne i bildet.
Kunstige miljødata kommer fra menneskeskapte innretninger (eller mekanismer), slik som en varsellampen i en bil. Her er innretningen skapt av mennesker med hensikt, men dataene er i sin tur laget av innretningen uten menneskelig kontroll.

Kunstige miljødata grenser dermed mot semantiske data som er laget ved hjelp av innretninger, som et tekstbehandlingsprogram. Semantiske data skapes imidlertid mens innretningen er under kontroll av et menneske, mens kunstige miljødata skapes av innretningen mens den er overlatt til seg selv. Vi kommer inn i en gråsone når semantiske data i betydelig grad blir viderebehandlet av en datainnretning etter at de først er skapt av et menneske.

Av og til kan data som opprinnelig var semantiske siden bli brukt som miljødata, for eksempel når en stor tekstsamling blir brukt til analyse av ordforekomster eller når Google analyserer innholdet på internettet for å finne trender i ordhyppighet osv.

Identifiserende og attributtive data

Identifiserende eller indeksikaliske data er data som kan benyttes til å identifisere en person, en familie, et firma, et sted, en organisasjon, et åndsverk eller et annet fenomen.^[5] Eksempler på identifiserende personinformasjon er f eks personnummer og nasjonalitet; passummer og nasjonalitet; og fullt navn, fødselsdato og postadresse. Identifiserende informasjon er viktig for å vite hvem eller hva data handler om og for å rekombinere data fra ulike kilder.
Attributtive data er data som beskriver opplysninger om en person, en familie, et sted, et firma, en organisasjon, et åndsverk eller et annet fenomen.^[5]

Data vi lett tenker på som attributtive kan i virkeligheten være indeksikaliske når de utsettes for tung regnekraft, f eks ved bruk av maskinlæring. Kommersielle virksomheter som spesialiserer seg på å samle og rekombinere persondata for markedsførings- og andre kommersielle formål bruker for eksempel avanserte analyseteknikker for å slå sammen data fra ulike sosiale medier.^[5] Selv om du bruker forskjellige navn på Twitter- og Snapchat-kontoen din, kan disse virksomhetene finne ut at kontoene med stor sannsynligjet tilhører samme person ved å sammenligne opplysninger om geolokasjon, påloggingstider, språk, favorittema og nettverk - opplysninger som i utganspunktet var attributtive brukes på en identifiserende måte. Det har også vist seg at (antatt attributtive) opplysninger om hvor en mobiltelefon vanligvis befinner seg på tre tidspunkter gjennom uken (f eks i arbeidstiden, om natten og i helgene) i svært mange tilfeller gjør det mulig å identifisere eieren av telefonen. ^{[trenger referanse]}

Utledede data

Utledede data er data som følger av andre data.^[3] For eksempel kan vi bruke data om at en mobiltelefon har vært i kontakt med bestemte basestasjoner på et tidspunkt - kanskje i kombinasjon med data om geografiske forhold og værforhold - til å utlede data om at mobiltelefonen har befunnet seg i et bestemt geografisk område på dette tidspunktet.

Nøytrale og sosiale konstruerte data

Miljødata kan være nøytrale og objektive i den forstand at de ikke avhenger av menneskelige oppfatninger, verdier, holdninger eller valg.
Semantiske data er derimot alltid sosialt konstruerte: de er aldri nøytrale og objektive, men skapt av mennesker (ut fra deres oppfatninger, verdier, holdninger og valg). Sosial konstruksjon av data skjer på flere måter:
- ved å velge hvilke miljødata som skal representeres som semantiske data, enten dataene registreres manualt eller automatisk;
- ved å velge hvor ofte, hvor presist og hvor omfattende data skal samles inn;
- ved å velge hvilke data som skal lagres, hvor lenge og hvordan;
- ved å velge hvilke data som skal viderebehandles og hvordan.

Data som samles inn automatisk av maskiner, som overvåkningskameraer, er også sosialt konstruerte, fordi det er mennesker som lagrer, installerer og opererer maskinene.

Autoritetsdata

Autoritetsdata er sosialt konstruerte data som er tillagt særlig vekt av en offentlig myndighet eller anerkjent organisasjon. De er typisk data om personer, familier, firmaer, organisasjoner, åndsverk, og ting generelt. Dataene kombinerer identifiserende og attributtive data med metadata som tilsammen gir en høy sannsynlighet for korrekt identifisering og sammenstilling. Autoritetsdata er dermed institusjoner: de er nyttige fordi mange mennesker og organisasjoner er blitt enige om å akseptere dem og bruke dem.^[6]

Åpne og lukkede data

Åpne data er data som er gjort fritt tilgjengelige slik at alle kan bruke og videreformidle dem. Åpne data må være både juridisk og teknisk åpne: de kan f eks ikke være begrenset av opphavsrett eller patenter og de kan ikke være begrenset av digital rettighetsadministrasjon (DRA).
Lukkede data er data som er ikke er fritt tilgjengelige av juridiske og/eller tekniske årsaker. Juridisk beskyttelse kan skje gjennom opphavsrett, patent alle andre rettslige mekanismer, mens teknisk beskyttelse av data kan skje gjennom digital rettighetsadministrasjon (DRA). Graden av lukkethet kan variere. Noen data, for eksempel virksomhetsinterne data, kan holdes utilgjengelige for allmennheten; andre data kan gjøres alment tilgjengelige, men med begrensninger på bruk og videreformidling.

Store og små data

Stordata (engelsk: «big data») brukes om datasett som er så store eller komplekse at det er vanskelig å lagre og analysere dem med vanlige dataprosesseringsverktøy, fordi de skaper nye utfordringer hva gjelder innsamling, lagring, søking, deling, utveksling, analyse og visualisering. Noen av kildene til stordata er logging av internett- og teletrafikk, digitalkamera- og satellittbilder, detaljert overvåkning av hendelser i offentlige og private foretak, kommersiell og vitenskapelig tungregning (for eksempel DNA-sekvensering) og andre nye teknologier som lagrer store datastrømmer i sanntid.^[5]
Smådata kan brukes, som en motsetning til stordata, om konvensjonelle datasamlinger som ikke er så store at de er problematiske å lagre og benytte med vanlige verktøy.^[5]

Metadata

Metadata er data om andre data.^[3]^[7] For eksempel inneholder mange vevsider, i tillegg til lesbare skrifttegn, også skjulte data om når vevsiden sist ble oppdatert osv.
Semantiske metadata er data om hva andre data handler om. Semantiske data spiller en viktig rolle på den semantiske veven, som forsøker å utvide den nåværende menneskelesbare verdensveven til også å være maskinlesbar.

Andre betydninger

Data kan også bety:

Alt som har å gjøre med datateknologi, datavitenskap, informasjonsvitenskap, informatikk, informasjons- og kommunikasjonsteknologi (IKT) osv.
I dagligtale brukes ordet ofte om PC og om datamaskiner og annet datautstyr generelt.

Referanser

^ ^a ^b Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 21. ISBN 978-0-19-955137-8.
^ Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 23. ISBN 978-0-19-955137-8. «x being distinct from y, where x and y are two uninterpreted variables and the relation of ’being distinct’, as well as the domain, are left open to further interpretation»
^ ^a ^b ^c ^d ^e ^f ^g ^h Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 30–36. ISBN 978-0-19-955137-8.
^ ^a ^b Knut Vedeld og Rolf Venheim. «Data». Arkivert fra originalen 5. mars 2016. Besøkt 18. juni 2013.
^ ^a ^b ^c ^d ^e Kitchin, Rob (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage.
^ John Searle (2010). Making the Social World: The Structure of Human Civilization. Oxford University Press.
^ Snyder, Lawrence (2015). Fluency with Information Technology - Skills, Concepts & Capabilities (6 utg.). Harlow, England: Pearson. s. 214. ISBN 1-292-06124-3.

Data

Administrasjon
Analyse
Ansvarlig
Arkeologi
Avstamning
Avstemming/justering
Bibliotek
Berikelse
Beskyttelse (personvern)
Bevaring
ETL/ELT
- Uttrekk
- Transformasjon
- Lasting
Filantropi
Formathåndtering
Forringelse
Fusjon
Gjenoppretting
Innhenting
Innsamling
Integrasjon
Integritet
Komprimering
Korrupsjon
Kuratering
Kvalitet
Lagring (medium)
Lagring (personvern)
Migrering
Oppdrett
Preprosessering
Prosessering
Publisering
Redigering
Reduksjon
Sikkerhet
Skraping
- Veven
Skrubbing
Stor
Synkronisering
Tap
Utvinning
Validering
Vasking
Varehus
Vitenskap

Kategorier