Glädjen och fruktan för AI-bildgeneratorer utan begränsningar

Bildgeneratorer som Stable Diffusion kan skapa vad som ser ut som riktiga fotografier eller handgjorda illustrationer som visar nästan allt en person kan föreställa sig. Detta är möjligt tack vare algoritmer som lär sig att associera egenskaperna hos en stor samling bilder tagna från webben och bilddatabaser med tillhörande textetiketter. Algoritmer lär sig att rendera nya bilder för att matcha en textuppmaning i en process som involverar att lägga till och ta bort slumpmässigt brus i en bild.

Eftersom verktyg som Stable Diffusion använder bilder skrapade från webben, innehåller deras träningsdata ofta pornografiska bilder, vilket gör programvaran kapabel att generera nya sexuellt explicita bilder. Ett annat problem är att sådana verktyg kan användas för att skapa bilder som verkar visa en verklig person som gör något som kompromissar – något som kan sprida desinformation.

Kvaliteten på AI-genererade bilder har skjutit i höjden under det senaste och ett halvt året, från och med januari 2021 tillkännagivandet av ett system kallat DALL-E av AI-forskningsföretaget OpenAI. Den populariserade modellen för att generera bilder från textuppmaningar och följdes i april 2022 av en mer kraftfull efterträdare, DALL-E 2, nu tillgänglig som en kommersiell tjänst.

Från början har OpenAI begränsat vem som kan komma åt dess bildgeneratorer, och ger endast åtkomst via en prompt som filtrerar vad som kan begäras. Detsamma gäller för en konkurrerande tjänst som heter Midjourneysläppt i juli i år, som hjälpte till att popularisera AI-tillverkad konst genom att vara allmänt tillgänglig.

Stable Diffusion är inte den första generatorn för AI-konst med öppen källkod. Inte långt efter att den ursprungliga DALL-E släpptes byggde en utvecklare en klon som heter DALL-E Mini som gjordes tillgänglig för vem som helst, och snabbt blev ett mem-skapande fenomen. DALL-E Mini, senare omdöpt till Craiyon, innehåller fortfarande skyddsräcken som liknar dem i de officiella versionerna av DALL-E. Clement Delangue, VD för KramarFaceett företag som är värd för många AI-projekt med öppen källkod, inklusive Stable Diffusion och Craiyon, säger att det skulle vara problematiskt för tekniken att kontrolleras av endast ett fåtal stora företag.

“Om man tittar på den långsiktiga utvecklingen av tekniken är det faktiskt bättre ur ett säkerhetsperspektiv att göra den mer öppen, mer samarbetsvillig och mer inkluderande”, säger han. Sluten teknik är svårare för externa experter och allmänheten att förstå, säger han, och det är bättre om utomstående kan bedöma modeller för problem som ras, kön eller åldersfördomar; dessutom kan andra inte bygga ovanpå sluten teknik. På det hela taget, säger han, uppväger fördelarna med att öppna tekniken med öppen källa för riskerna.

Delangue påpekar att sociala medieföretag skulle kunna använda Stable Diffusion för att bygga sina egna verktyg för att upptäcka AI-genererade bilder som används för att sprida desinformation. Han säger att utvecklare också har bidragit med ett system för att lägga till osynliga vattenstämplar till bilder gjorda med hjälp av Stable Diffusion så att de är lättare att spåra, och byggt ett verktyg för att hitta specifika bilder i modellens träningsdata så att problematiska kan tas bort.

Efter att ha intresserat sig för Unstable Diffusion blev Simpson-Edin moderator på Unstable Diffusion Discord. Servern förbjuder människor att publicera vissa typer av innehåll, inklusive bilder som kan tolkas som minderåriga pornografi. “Vi kan inte moderera vad folk gör på sina egna maskiner, men vi är extremt strikta med vad som publiceras”, säger hon. På kort sikt kan hanteringen av de störande effekterna av konstframställning av AI bero mer på människor än maskiner.

Leave a Comment

Your email address will not be published.