top of page
close-up-businessman-with-digital-tablet.jpg

Att hantera luckor: Utmaningar med saknad data i AI-utveckling

  • Skribentens bild: Kehinde Soetan
    Kehinde Soetan
  • 16 sep.
  • 2 min läsning
ree

Utmaningen med saknad data inom AI är något som ständigt bör undersökas och ges tillräcklig uppmärksamhet – eftersom många beslut baseras på datakvalitet. Artificiella intelligensmodeller lär sig av data, och dessa modeller kan endast vara så starka som den data de matas med. AI-modeller kan fatta beslut, förutsäga utfall, förstå mönster, generera sammanhang och klassificera saker baserat på den data de lär sig från. Denna data kan vara strukturerad, semistrukturerad, ostrukturerad, textbaserad, numerisk eller i andra olika format.


I kontrast till vad många tror eller förväntar sig, existerar perfekta dataset sällan, och de flesta dataset måste rensas innan de förutsägelser som görs med sådan data kan betraktas som tillförlitliga. Enligt #Tableau är datarensning processen att åtgärda eller ta bort felaktig, korrupt, felaktigt formaterad, duplicerad eller ofullständig data i ett dataset. Datarensning behövs på grund av de felaktigheter som kan finnas i dataset, för att undvika omarbete (vilket i sin tur sparar tid på lång sikt), för att förhindra fel, förbättra noggrannheten i förutsägelser, förbättra modellernas prestanda, göra dataset lättare att arbeta med – samt av många andra skäl.


En del av datarensningsprocessen innebär att hantera saknad data, vilket kan uppstå på grund av mänskliga misstag, systembegränsningar, systemtidsgränser, inkonsekventa datainsamlingstekniker, föråldrad data, datakorruption, data-anonymisering, integritetsskäl och många andra orsaker. Till exempel inom sjukvården – om en patient medvetet väljer att inte lämna viktig information, vilket leder till att familjens sjukdomshistorik saknas, kan detta innebära att läkare missar viktig medicinsk information vid beslut som att skriva ut mediciner eller ställa diagnoser. Ett sådant felaktigt beslut kan leda till dåliga behandlingsresultat för patienten och minskat förtroende för sjukvårdssystemet hos andra patienter.

Ett annat exempel kan komma från finanssektorn, där ett systemfel kan leda till att hela transaktionshistoriken för en bankkund inte fångas upp korrekt i ett kontoutdrag. En migrationshandläggare som läser ett sådant felaktigt bankutdrag kan fatta beslut som får negativa konsekvenser för klienten. Utmaningarna med saknad data begränsas inte bara till felaktigt beslutsfattande som kan påverka liv, utan kan även väcka etiska frågor, snedvridning, rättviseproblematik, leda till minskad statistisk styrka, skalbarhetsproblem, tillitsproblem och mycket mer. För att hantera saknad data är det viktigt att först förstå hur man identifierar om data saknas i ett dataset. Detta kan göras genom att leta efter inkonsekvenser, förstå datakategorier, förstå hur saknad data markeras, undersöka typkonflikter i data, hantera logiska inkonsekvenser och profilera data korrekt i ett tidigt skede innan det används i en modell eller i beslutsfattande.


Utmaningarna med saknad data i AI-utveckling påverkar inte bara beslutsfattande, utan kan även ha stor inverkan på det förtroende individer och samhällen har för AI-modeller. Domänexperter, dataingenjörer/-forskare, ledare och systemingenjörer behöver samarbeta bättre för att snabbt kunna identifiera, strategisera och säkerställa att data av hög kvalitet matas in i AI-modeller.

 
 
 

1 kommentar

Betygsatt till 0 av 5 stjärnor.
Inga omdömen ännu

Lägg till ett betyg
Gäst
16 sep.
Betygsatt till 5 av 5 stjärnor.

mycket bra

Gilla
bottom of page