lbv3

Waarom Google SGE vastzit in Google Labs en wat nu?

Inhoudsopgave

Google Search Genative Experience (SGE) zou eind 2023 aflopen als experiment van Google Labs, maar de tijd als experiment werd stilletjes verlengd, waardoor duidelijk werd dat SGE in de nabije toekomst niet op zoek zal gaan. Verrassend genoeg was het misschien wel onbedoelde aanpak voor Google om Microsoft het voortouw te laten nemen.

Google’s AI-strategie voor zoeken

Het besluit van Google om SGE als een Google Labs-project te behouden past in de bredere trend in de geschiedenis van Google om AI liever op de achtergrond te integreren.

De aanwezigheid van AI is niet altijd duidelijk, maar het maakt al langer deel uit van Google Zoeken dan de meeste mensen beseffen.

Het allereerste gebruik van AI in de zoekresultaten was als onderdeel van het ranking-algoritme van Google, een systeem dat bekend staat als RankBrain. RankBrain hielp de rangschikkingsalgoritmen begrijpen hoe woorden in zoekopdrachten zich verhouden tot concepten in de echte wereld.

Volgens Google:

“Toen we RankBrain in 2015 lanceerden, was dit het eerste deep learning-systeem dat in Search werd ingezet. Destijds was het baanbrekend… RankBrain (zoals de naam al doet vermoeden) wordt gebruikt om te helpen bij het rangschikken (of bepalen van de beste volgorde voor) topzoekresultaten.”

De volgende implementatie was Neural Matching, waarmee de algoritmen van Google bredere concepten in zoekopdrachten en webpagina’s konden begrijpen.

En een van de bekendste AI-systemen die Google heeft uitgerold is het Multitask Unified Model, ook wel bekend als Google MUM. MUM is een multimodaal AI-systeem dat het begrijpen van afbeeldingen en tekst omvat en deze in de context kan plaatsen zoals geschreven in een zin of een zoekopdracht.

SpamBrain, de spambestrijdende AI van Google, is waarschijnlijk een van de belangrijkste implementaties van AI als onderdeel van het zoekalgoritme van Google, omdat het helpt sites van lage kwaliteit te verwijderen.

Dit zijn allemaal voorbeelden van de aanpak van Google om AI op de achtergrond te gebruiken om verschillende problemen binnen het zoeken op te lossen als onderdeel van het grotere kernalgoritme.

Het is waarschijnlijk dat Google AI op de achtergrond zou zijn blijven gebruiken totdat de op transformatoren gebaseerde grote taalmodellen (LLM’s) op de voorgrond konden treden.

Maar de integratie van ChatGPT door Microsoft in Bing dwong Google stappen te ondernemen om AI op een meer op de voorgrond staande manier toe te voegen met hun Search Genative Experience (SGE).

Waarom SGE in Google Labs houden?

Gezien het feit dat Microsoft ChatGPT in Bing heeft geïntegreerd, lijkt het misschien merkwaardig dat Google niet een soortgelijke stap heeft gezet en in plaats daarvan SGE in Google Labs houdt. Er zijn goede redenen voor de aanpak van Google.

Een van de leidende principes van Google voor het gebruik van AI is om deze pas te gebruiken als bewezen is dat de technologie succesvol is en wordt geïmplementeerd op een manier waarop kan worden vertrouwd dat deze verantwoordelijk is. Dat zijn twee dingen waartoe generatieve AI vandaag de dag niet in staat is.

Er zijn minstens drie grote problemen die moeten worden opgelost voordat AI met succes op de voorgrond van zoeken kan worden geïntegreerd:

  1. LLM’s kunnen niet worden gebruikt als systeem voor het ophalen van informatie, omdat het volledig opnieuw moet worden getraind om nieuwe gegevens toe te voegen. .
  2. Transformerarchitectuur is inefficiënt en kostbaar.
  3. Generatieve AI heeft de neiging verkeerde feiten te creëren, een fenomeen dat bekend staat als hallucineren.

Waarom AI niet als zoekmachine kan worden gebruikt

Een van de belangrijkste problemen die moeten worden opgelost voordat AI kan worden gebruikt als de backend en de frontend van een zoekmachine, is dat LLM’s niet kunnen functioneren als een zoekindex waar voortdurend nieuwe gegevens worden toegevoegd.

Simpel gezegd: wat er gebeurt, is dat in een gewone zoekmachine het toevoegen van nieuwe webpagina’s een proces is waarbij de zoekmachine de semantische betekenis van de woorden en zinsdelen in de tekst berekent (een proces dat ‘inbedding’ wordt genoemd), waardoor ze doorzoekbaar en toegankelijk worden. klaar om te worden geïntegreerd in de index.

Daarna moet de zoekmachine de hele index bijwerken om (zogezegd) te begrijpen waar de nieuwe webpagina’s in de algehele zoekindex passen.

De toevoeging van nieuwe webpagina’s kan de manier veranderen waarop de zoekmachine alle andere webpagina’s die hij kent, begrijpt en met elkaar in verband brengt. De zoekmachine doorloopt dus alle webpagina’s in de index en werkt indien nodig hun relaties met elkaar bij. Dit is een vereenvoudiging om de algemene betekenis over te brengen van wat het betekent om nieuwe webpagina’s aan een zoekindex toe te voegen.

In tegenstelling tot de huidige zoektechnologie kunnen LLM’s geen nieuwe webpagina’s aan een index toevoegen, omdat het toevoegen van nieuwe gegevens een volledige herscholing van de gehele LLM vereist.

Google onderzoekt hoe dit probleem kan worden opgelost om een ​​op transformatoren gebaseerde LLM-zoekmachine te creëren, maar het probleem is niet opgelost, zelfs niet in de buurt.

Om te begrijpen waarom dit gebeurt, is het nuttig om snel een recent Google-onderzoeksartikel te bekijken dat mede is geschreven door Marc Najork en Donald Metzler (en verschillende andere co-auteurs). Ik noem hun namen omdat beide onderzoekers bijna altijd in verband worden gebracht met een van de meest consequente onderzoeken die uit Google komen. Dus als er een van hun namen op staat, is het onderzoek waarschijnlijk erg belangrijk.

In de volgende uitleg wordt naar de zoekindex verwezen als geheugen, omdat een zoekindex een geheugen is van wat is geïndexeerd.

Het onderzoeksartikel is getiteld: “DSI++: Updaten Transformer Memory met nieuwe documenten” (Pdf)

Het gebruik van LLM’s als zoekmachines is een proces dat gebruik maakt van een technologie genaamd Differentiable Search Indices (DSI’s). Naar de huidige zoekindextechnologie wordt verwezen als een dubbele encoder.

Het onderzoekspaper legt uit:

“…indexconstructie met behulp van een DSI omvat het trainen van een Transformer-model. Daarom moet het model elke keer dat het onderliggende corpus wordt bijgewerkt, opnieuw worden getraind, wat onbetaalbaar hoge rekenkosten met zich meebrengt in vergelijking met dual-encoders.”

Het artikel gaat verder met het verkennen van manieren om het probleem op te lossen van LLM’s die ‘vergeten’, maar aan het einde van het onderzoek stellen ze dat ze alleen maar vooruitgang hebben geboekt in de richting van een beter begrip van wat er in toekomstig onderzoek moet worden opgelost.

Zij concluderen:

“In deze studie onderzoeken we het fenomeen vergeten in relatie tot het toevoegen van nieuwe en onderscheidende documenten aan de indexer. Het is belangrijk op te merken dat wanneer een nieuw document een eerder geïndexeerd document weerlegt of wijzigt, het gedrag van het model onvoorspelbaar wordt en verdere analyse vereist.

Daarnaast onderzoeken we de effectiviteit van onze voorgestelde methode op een grotere dataset, zoals de volledige MS MARCO-dataset. Het is echter vermeldenswaard dat bij deze grotere dataset de methode aanzienlijk vergeet. Als gevolg hiervan is aanvullend onderzoek nodig om de prestaties van het model te verbeteren, vooral als het gaat om datasets op grotere schaal.”

LLM’s kunnen zichzelf niet op feiten controleren

Google en vele anderen onderzoeken ook meerdere manieren om AI zichzelf te laten controleren op feiten, om te voorkomen dat er valse informatie wordt verstrekt (ook wel hallucinaties genoemd). Maar tot nu toe boekt dat onderzoek geen noemenswaardige vooruitgang.

Bing’s ervaring met AI op de voorgrond

Bing sloeg een andere weg in door AI rechtstreeks in zijn zoekinterface op te nemen in een hybride aanpak die zich aansloot bij een traditionele zoekmachine met een AI-frontend. Dit nieuwe soort zoekmachine vernieuwde de zoekervaring en differentieerde Bing in de concurrentie voor gebruikers van zoekmachines.

De AI-integratie van Bing zorgde aanvankelijk voor veel ophef, waardoor gebruikers geïntrigeerd raakten door de nieuwigheid van een AI-gestuurde zoekinterface. Dit resulteerde in een toename van de gebruikersbetrokkenheid van Bing.

Maar na bijna een jaar van opwinding kende het marktaandeel van Bing slechts een marginale stijging. Recente rapporten, waaronder één van de Boston-bolduiden op een groei van het marktaandeel van minder dan 1% sinds de introductie van Bing Chat.

De strategie van Google wordt achteraf gezien gevalideerd

De ervaring van Bing suggereert dat AI op de voorgrond van een zoekmachine mogelijk niet zo effectief is als gehoopt. De bescheiden stijging van het marktaandeel roept vragen op over de levensvatbaarheid van een op chat gebaseerde zoekmachine op de lange termijn en bevestigt de voorzichtige benadering van Google om AI op de achtergrond te gebruiken.

De focus van Google op AI op de achtergrond van het zoeken wordt gerechtvaardigd in het licht van het feit dat Bing er niet in slaagt gebruikers ertoe te brengen Google te verlaten voor Bing.

De strategie om AI op de achtergrond te houden, waar dat op dit moment het beste werkt, stelde Google in staat gebruikers te behouden terwijl de AI-zoektechnologie volwassen werd in Google Labs, waar deze thuishoort.

Bing’s benadering van het gebruik van AI op de voorgrond dient nu bijna als een waarschuwend verhaal over de valkuilen van het haastig op de markt brengen van een technologie voordat de voordelen volledig worden begrepen, en biedt inzicht in de beperkingen van die aanpak.

Ironisch genoeg vindt Microsoft betere manieren om AI als achtergrondtechnologie te integreren in de vorm van handige functies die worden toegevoegd aan hun cloudgebaseerde kantoorproducten.

Toekomst van AI op zoek

De huidige stand van zaken op het gebied van AI-technologie suggereert dat het effectiever is als hulpmiddel dat de functies van een zoekmachine ondersteunt, dan dat het dient als de gehele voor- en achterkant van een zoekmachine of zelfs als een hybride aanpak die gebruikers hebben geweigerd te hanteren.

De strategie van Google om nieuwe technologieën pas uit te brengen als ze volledig zijn getest, verklaart waarom Search Genative Experience thuishoort in Google Labs.

Zeker, AI zal een grotere rol spelen bij het zoeken, maar die dag is zeker niet vandaag. Verwacht dat Google meer op AI gebaseerde functies aan meer van hun producten zal toevoegen en het is misschien niet verrassend dat Microsoft ook op die weg doorgaat.

Uitgelichte afbeelding door Shutterstock/ProStockStudio