Artikel · 11 mars 2026

Vad händer när maskinen lär sig se, lyssna och läsa på en gång?

Den 10 mars 2026 lanserade Google en modell som för första gången placerar text, bilder, ljud, video och dokument i exakt samma matematiska rum. En operatör kan fotografera en trasig maskin, tala in sin fråga, och systemet svarar direkt mot PDF-manualen utan mellanhänder. Det är imponerande. Det är nyttigt. Men det väcker en fråga som sällan ställs i lanserings-pressreleaser: Vad händer med oss när maskinen börjar förstå världen på ett sätt som liknar vårt eget, fast snabbare och utan de filter av erfarenhet och känsla som formar mänsklig förståelse? En teknisk genomgång med ett Jungianskt öga på vad vi vinner, och vad vi riskerar att tappa.

Gemini Embedding
Jungiansk coaching
AI och etik
Mänsklig agency
Teknik och psykologi

Googles Gemini Embedding 2 och den tysta omvälvningen av hur vi förstår information

Föreställ dig att du står i en verkstad. Svetslågan sprutar gnistor. En maskin har stannat. Du vet inte varför. Du tar upp telefonen, fotograferar det trasiga aggregatet, spelar in din röst: "Matarfelet är tillbaka, vad säger manualen om detta?" Och systemet svarar. Direkt. Utan att du behövt skriva ett ord, tagga en bild eller konvertera ditt tal till text. Det förstår din bild. Det förstår din röst. Det förstår vad du menar.

Det är inte en scen ur en science fiction-film. Det är en konkret demonstration av vad Googles nya Gemini Embedding 2-modell, lanserad den 10 mars 2026, möjliggör redan idag. Och det väcker frågor som sträcker sig långt bortom det tekniska: om vad som händer med oss när maskinerna börjar förstå världen på ett sätt som liknar hur vi gör det, fast snabbare, billigare och utan de filter av erfarenhet och känsla som formar mänsklig förståelse.

Det tekniska skiftet: Från textöar till en enhetlig värld

För att förstå varför detta är ett fundamentalt skifte och inte bara en gradvis förbättring, behöver vi backa en sekund. I AI-arkitekturer har det länge funnits ett grundläggande problem: vi har behandlat text, bild, ljud och video som separata informationsöar. Ville du söka i ett videobibliotek med fritext krävdes ett system. Ville du matcha ett inspelade röstmeddelande mot en textmanual krävdes ett annat. Varje modalitet levde i sin egen bubbla.

Gemini Embedding 2 bryter ned dessa väggar. Modellen är Googles första infödda multimodala inbäddningsmodell, vilket i klartext betyder att den placerar text, bilder, video, ljud och PDF-dokument i exakt samma matematiska rum, vad ingenjörerna kallar en "unified semantic space". En vektor som representerar ett foto av en trasig maskin hamnar i samma koordinatsystem som vektorn för den mening i säkerhetsmanualen som beskriver just det felet. Systemet förstår relationen. Inte för att det har lärt sig den specifika kopplingen, utan för att det förstår det semantiska sammanhanget.

Tekniskt sett hanterar modellen upp till 8 192 texttoken, sex bilder per anrop, 120 sekunders video, 80 sekunders råljud och PDF-dokument på upp till sex sidor, allt i en och samma begäran. Den stöder över 100 språk och genererar som standard vektorer med 3 072 dimensioner. För dem som vill hålla ner lagringskostnader finns stöd för "Matryoshka Representation Learning", en teknik som låter dig komprimera vektorn till 1 536 eller 768 dimensioner med minimal förlust av sökprecision.

Modellen är tillgänglig i Public Preview via Gemini API och Google Cloud Vertex AI under modellnamnet gemini-embedding-2-preview. Den är integrerad med Google Clouds Vertex AI Vector Search och kompatibel med ramverk som LangChain, LlamaIndex och Haystack, samt vektordatabaser som Weaviate, Pinecone, QDrant och ChromaDB.

Det praktiska exemplet: När AI-portalen lär sig "se" verkstaden

Låt oss göra detta konkret med ett verkligt projektexempel. I ett pågående projekt kring en intern AI-portal för en verkstad, "Birgirs Mekaniska", handlar utmaningen om kunskapsöverföring. Verkstaden har säkerhetsmanualer i PDF-format, produktionsstoppdata, inspelade felmönster. Tidigare kunde personalen bara söka i texten. Det krävde att de visste exakt vad de letade efter, och att informationen fanns nedskriven på ett sätt som matchade deras sökning.

Med multimodala embeddings förändras hela interaktionsmodellen. En operatör ute på golvet behöver inte längre vara en sökmotorexpert. Han tar en bild. Han pratar. Systemet förstår. Det matchar det oklippta ljudet och fotot direkt mot PDF-manualerna utan mellanhänder i form av tal-till-text-konvertering eller manuell bilduppmärkning.

Det är en påtaglig demokratisering av tillgång till information. Men det är också, om vi stannar upp och tänker, en djupgående omstrukturering av vad det innebär att "kunna" något i en organisation.

Det Jungianska perspektivet: Persona, skugga och enhetens illusion

Carl Jung beskrev Persona som den mask vi bär inför omvärlden. Den roll vi spelar, de symboler vi väljer, de ord vi använder för att kommunicera vem vi är. Men under Personan finns Skuggan: de delar av oss som vi inte vill erkänna, de kapaciteter vi förnekar, de svagheter vi skyler över.

Organisationer har också Personas och Skuggor. En verkstad projicerar en bild av sig själv: kompetent, ordnad, kunnig. Men under den ytan finns ofta ett kunskapsgap som ingen pratar om. Erfarna tekniker som bär på tyst kunskap de aldrig dokumenterat. Manualer som är skrivna av ingenjörer men ska läsas av operatörer som aldrig fått lära sig ingenjörens terminologi. Information som finns, men som inte är tillgänglig för den som behöver den, i stunden de behöver den.

Gemini Embedding 2 adresserar detta gap på ett tekniskt imponerande sätt. Den bryggar över formaten. Den låter kroppen prata med systemen. Men här är den kritiska frågan, den som sällan ställs i lanserings-pressreleaser: Vad händer med organisationens Skugga när AI tar över rollen som kunskapsförmedlare?

Om en erfaren tekniker inte längre behöver dokumentera sin kunskap, för att systemet ändå "förstår" om man visar det, riskerar vi att bygga kraftfulla verktyg på ett osynligt fundament av tyst, odokumenterad erfarenhet. Verktyget fungerar utmärkt, tills den erfarne teknikern slutar. Tills kontexten förändras. Tills maskinen frågar efter ett svar som inte finns i något videobibliotek, någon PDF eller något ljudioklipp.

Jungiansk coaching lär oss att Skuggan inte försvinner för att vi slutar se den. Den lever vidare i det omedvetna och dyker upp vid de sämst tänkbara tillfällena. Detsamma gäller organisationers kunskapsskugga: det vi väljer att inte dokumentera, strukturera och reflektera kring, det försvinner inte bara för att vi skapat ett smart RAG-system.

Individuation och den multimodala inlärningen: Vad AI lär sig, och vad det inte kan

Jungs individationsprocess handlar om att bli ett helt, integrerat jag. Att integrera Skuggan, att förstå Animan och Animuset, att transcendera Personans mask och nå det djupare Självet. Det är en livslång resa mot autenticitet och helhet.

Gemini Embedding 2 är på ett tekniskt plan ett försök att skapa "helhet" i hur maskinen förstår information: att inte fragmentera världen i text-öar, bild-öar och ljud-öar, utan att integrera allt i ett sammanhängande semantiskt rum. Det är en form av teknisk individuation, om man vill använda metaforen.

Men det finns en avgörande skillnad. Jungs individuation sker inifrån och ut. Det är ett subjekts möte med sina egna djup, drivna av livserfarenhet, lidande, glädje och meningssökande. Det är inte en process som kan optimeras bort eller automatiseras. Den kräver just det som maskinen saknar: ett "jag" som bär konsekvenserna av sina val.

Maskinens "integrering" av modaliteter sker utifrån och in: via statistiska mönster i gigantiska dataset, utan erfarenhet, utan kropp, utan historia. Den är imponerande. Den är nyttig. Men den är inte visdom. Det är ett distinkt och viktigt skilje.

Napoleon Hills liknelse, som jag tidigare skrivit om, om den lilla mannen högt upp i hytten på jättemaskinen, gäller fortfarande. Maskinen har fått ett nytt, mer sofistikerat sinne. Men den behöver fortfarande en människa i hytten som vet varför vi kör, vart vi ska och vad vi inte är beredda att köra över på vägen dit.

Agency i det multimodala: Vem äger egentligen förståelsen?

En av de mest centrala frågorna i min skrivning kring AI och mänsklig agency handlar om var kontrollen sitter. Den tekniker som fotograferar sin trasiga maskin och får ett svar via en AI-portal agerar. Han tar initiativet. Han skapar frågan. Men förståelsen som genererar svaret är inte hans. Den är inbyggd i en modell tränad av Google, på data som vi aldrig helt kan granska, med prioriteringar vi inte fullt ut förstår.

Det är en form av delegerad förståelse. Och delegering i sig är inte farligt. Vi delegerar ständigt: till böcker, till kollegor, till experter. Men det finns en kvalitativ skillnad mellan att konsultera en expert och att outsourca sin förståelseförmåga till ett system man inte kan ifrågasätta i realtid.

Dan Koe talar om vikten av specifik kunskap, den kunskap som är unik för dig, som inte kan kopieras eller ersättas. Naval Ravikant formulerar det: specifik kunskap är kunskap du inte kan tränas till. Om samhället kan träna dig, kan det träna någon annan, och ersätta dig.

I en värld där multimodala AI-system kan förstå bilder, ljud och text lika naturligt som en erfaren tekniker, vad är då din specifika kunskap? Svaret, och jag tror detta är avgörande, är inte teknisk kompetens i sig. Det är förmågan att ställa rätt frågor. Att veta varför du frågar. Att bära ansvaret för svaret.

Skuggorna i koden: Vad Google inte berättar i pressreleasen

Gemini Embedding 2 är för närvarande i Public Preview, vilket i praktiken betyder att det är ett system som erbjuds under Pre-GA-villkor. Det är viktigt att notera. Det är inte en färdig produkt. Det är en beta som organisationer uppmuntras att testa, integrera och bygga på, med alla de oklarheter kring långsiktig stabilitet, prissättning och dataintegritet som det för med sig.

Det finns dessutom nulägesbegränsningar som förtjänar uppmärksamhet. Modellen stöder primärt regionen us-central1, vilket betyder att data processas i USA. För europeiska organisationer med GDPR-skyldigheter är detta en praktisk och juridisk fråga som sällan lyfts i entusiastiska tech-lanseringar.

Modellens kunskapsstopp är november 2025. Det är ett datum, inte en egenskap. Det betyder att allt som hänt, förändrats eller uppfunnits efter den tidpunkten lever utanför modellens förståelse. I en värld som rör sig i allt snabbare takt är det en påminnelse om att varje AI-system är en fryst ögonblicksbild av sin tid.

Det finns en djupare skugga här, en som sällan nämns öppet. Ju mer sofistikerade och lättillgängliga dessa system blir, desto svårare blir det att argumentera för investeringar i mänsklig kompetensuppbyggnad. Varför utbilda en tekniker i felsökning när AI kan ge svaret på en bild och ett röstmeddelande? Det är ett rationellt argument i det korta perspektivet. Det är en farlig förenkling i det långa.

Jung påminner oss om att det vi inte integrerar, det projicerar vi på omvärlden. En organisation som slutar investera i mänsklig förståelse, i utbildning och reflektion, projicerar på sikt sin kunskapssvaghet på de verktyg den förlitar sig på. Och verktyg kan inte bära det ansvaret.

Det praktiska ramverket: Hur du bygger med medvetenhet

Allt detta sagt: Gemini Embedding 2 är ett genuint kraftfullt verktyg. Och det finns ett ansvarsfullt sätt att integrera det i din verksamhet. Här är ett ramverk i fyra steg som jag arbetar efter i mina egna projekt:

1. Kartlägg vad du faktiskt vet. Innan du bygger ett multimodalt RAG-system, fråga dig: Vilken kunskap i din organisation är dokumenterad? Vilken lever enbart i erfarna medarbetares huvuden? Multimodala embeddings kan göra tillgänglig information mer åtkomlig. De kan inte ersätta information som aldrig skapats.

2. Behåll intentionen. Tekniken ger svar. Du måste fortfarande formulera frågorna. Och du måste förstå varför du frågar. Ett AI-system som svarar på allt utan att du förstår konsekvenserna är ett system som styr dig, inte ett du styr.

3. Bygg för GDPR från dag ett. Om din verksamhet hanterar europeisk data, tänk igenom dataflödena innan du integrerar modeller som primärt processar i us-central1. Det är enklare att bygga rätt från start än att migrera senare.

4. Kombinera AI-svar med mänsklig granskning. Särskilt i säkerhetskritiska miljöer som verkstäder. Modellen kan matcha ett foto mot en manual. Den kan inte bedöma om den specifika situationen kräver en avvikelse från manualen. Det är fortfarande ett mänskligt ansvar.

Avslutning: Att se med nya ögon utan att tappa sina egna

Det finns en vacker och aningen skrämmande parallell i hur Gemini Embedding 2 fungerar och hur Jung beskriver det fullt integrerade psyket. Båda försöker se världen som ett sammanhängande hela snarare än fragmenterade delar. Båda strävar efter att förstå relationer och mönster som inte är uppenbara vid första anblick.

Skillnaden är att Jungs individuation alltid leder tillbaka till subjektet, till det unika, ansvarsbärande, erfarenhetsburna jag som integrerar sin Skugga och lever med konsekvenserna av sin förståelse. Maskinens "integration" är stateless. Den bär inga konsekvenser. Den har inget "jag" att integrera till.

Det är inte en svaghet hos maskinen. Det är en beskrivning av vad den är. Och det är en påminnelse om vad vi är. Vi är de varelser som bär konsekvenserna. Vi är de som måste leva med vad vi skapar. Det är inte en börda. Det är en förmån. Det är vad det innebär att ha Agency.

Gemini Embedding 2 är ett imponerande tekniskt skifte. Det kommer att förändra hur vi bygger system, hur vi gör information tillgänglig och hur operatörer interagerar med komplex dokumentation. Bygg det med öppna ögon. Förstå vad det kan. Var lika tydlig om vad det inte kan. Och se till att det alltid finns en människa i hytten som vet varför vi kör.

Källor och vidare läsning

Google. (2026, mars). Gemini Embedding 2 launch announcement. Google Cloud Blog.

Google Cloud. (2026). Vertex AI documentation: gemini-embedding-2-preview. cloud.google.com.

Jung, C.G. Samlade verk om skugga, individuation och arketyper.

Hill, N. (1937). Think and Grow Rich. The Napoleon Hill Foundation.

Maltz, M. (1960). Psycho-Cybernetics. Prentice-Hall.

Ravikant, N. Citerat via Koe, D. (2022-2026). Diverse artiklar

Goren-Bar, A. (2022). An Introduction to Jungian Coaching.

Birgisson, B. (2025). Den sista superkraften: Agency i ett hav av AI-överflöd.

Birgisson, B. (2026). Vibe coding och enmansföretagets revolution.

Birgir Birgisson är Jungiansk coach, skribent och grundare av Jungian Synergy Coaching. Han skriver om personlig utveckling, ledarskap och teknikens påverkan på människan. Delar av materialet är framtaget eller skapat med hjälp av olika AI-verktyg.

Författare

Birgir Birgisson

Coach, AI-strateg och byggare.

Vibe Coding Startkit

Bygg riktiga appar på en eftermiddag

Den kompletta nybörjarguiden för dig som vill använda Claude Code i Claude Desktop App för att bygga professionella produkter. 9 kapitel, 50 färdiga prompts och 4 downloads, i en interaktiv kursportal.

Köp för 199 kr →Se kursinnehåll

Tillbaka till alla artiklar