Data, Information, komplexitet och kunskap

Här kommer ett försök att skapa reda kring begreppet information som ofta används sammanblandat med begreppen data och kunskap.

Begreppet data är den grund på vilket begreppet information representeras. Den minsta enheten för data är en bit. En (binär) bit kan ha två värden, typiskt Ett eller Noll. Ett dataprogram hanterar dessa bitar i långa strängar. Mängden information i en sträng kan variera.

En given mängd information kan representeras med en minsta men godtycklig största mängd data. Den minsta mängd information som kan representeras utgörs av en bit data. Information är inte förbundet med begreppet mening, vilket ofta görs gällande. Information har också en egen enhet (Shannon) men som sammanfaller med enheten för data d.v.s. bit.

Ett exempel: Tag en stillbild med vitt brus i en analogt ansluten TV apparat. Detta är brus som visas när den analoga antennen är ansluten men ingen kanal har ställts in. Detta brus är helt slumpmässigt och representerar en datamängd med i princip maximalt informationsinnehåll i relation till data (1:1). Vidare är bilden omöjlig att komprimera med en icke informationsförstörande algoritm. (Den mängd data som krävs för att representera brus-bildens information, kan få vara 1024×2048 pixlar, 8 bitars färg vilket ger ungefär 16 Mbit) .

Nu tar vi istället en stillbild med en svart TV-bild av samma storlek, som alltså fortfarande innehåller ungefär 16 Mbit data. Den här bilden har dock en minimal mängd information. Den här bilden går att komprimera, till i princip 1 bit, utan att någon information går förlorad, då den (nästan) inte innehåller någon information.

Det är mellan dessa båda extremer som allt intressant utspelar sig. Om vi därför istället låter bilden föreställa ett fotografi så kan vi enkelt säga att bilden fortfarande utgörs av samma 16 Mbit data. Men hur stort är informationsinnehållet?

Effektiva kompressionsalgoritmer låter oss komprimera bilden med en faktor 5-7, utan att något av bildens information går förlorad. Detta är ett sätt att utnyttja faktumet att bildens information är representerad med ett överskott av data och en hög grad av redundans eller repetition. En icke förstörande komprimering som till exempel GIF, visar att bildens informationsinnehåll är ca 15-20% av den totala datamängden.

Information kan också fångas med hjälp av begreppet komplexitet. Det finns olika sätt att mäta hur komplext något är och ett mått är algoritmisk komplexitet. Denna beskriver mängden komplexitet som storleken (bit) på den algoritm som krävs för att koda bilden.

Men meningen då, har informationen inte någon mening? Information är starkt knutet till begreppet komplexitet vilket ter sig ganska naturligt. Speciellt om man beaktar den komplexitet vilken typiskt föreligger i våra mänskliga artefakter. Dessa har både ett syfte och en mening, ur ett mänskligt perspektiv. Men om vi antar att det aktuella fotografiet föreställer en person på semesterbesök i Pompeji så kanske strängen ”Olle på besök i Pompeji” räcker som beskrivning och mening? Det finns dock inget i bilden ovan som identifierar varken Olle eller Pompeji. Det här är information som ligger i betraktarens öga och måste tillföras genom kunskap hos betraktaren.

Kunskap är alltså en förutsättning för göra en tolkning av data med viss information. Feltolkningar är legio varför någon slags konfirmation krävs för att fastställa riktigheten av en tolkning. Vi människor brukar ställa en fråga.