Tekniske erfaringar med å avvikle og omdirigere allkunne.no 🤓

Dette er ei svært teknisk oppsummering av erfaringane med å avvikle allkunne.no. Korleis bør ein leggje opp eit omdirigeringsregime (redirect), kor ærleg bør ein vere andsynes Google og andre bottar?

Vi skriv denne bloggposten fordi vi sjølv har sett etter liknande skriftlege oppsummeringar av omdirigering av heile nettstader, utan å finne noko. Kanskje andre har bruk for desse erfaringane?

Vi har gjort store omdirigeringar av store nettstader to gongar dei siste åra:

  • I 2020 avvikla vi nettstaden denstoredanske.dk og omdirigerte trafikken til denstoredanske.lex.dk og med heilt ny URL-struktur. Dette var ein del av samarbeidet vårt med det danske leksikonet. Vi trur at vi gjorde nokre tabbar med det danske leksikonet: Vi omdirigerte all trafikk til det nye domenet. Der vi hadde rett URL til den nye artikkelen, omdirigerte vi dit, men alle førespurnader som vi ikkje klarte å mætsje til rett URL vart omdirigert til ei statisk side på lex.dk (https://om.lex.dk/denstoredanske.dk). Vi trur at vi mista ein del PageRank for det danske leksikonet i samband med omdirigeringa, og lurte på om Google kanskje oppfatta at vi forsøkte å omdirigere for mykje av trafikken.
  • Då vi skulle avvikle allkunne.no tenkte vi å forsøke ein annan strategi: Å berre omdirigere førespurnader vi var heilt sikre på at vi kunne sende til rett side på snl.no. For eksempel å omdirigere https://allkunne.no/framside/biografiar/p/vladimir-putin/99/14074/ til https://snl.no/Vladimir_Putin. Alle andre førespurnader skulle gje responskodane 404 og 410, sjå nedanfor. Vi valde òg å fylgje alle Googles retningsliner for omdirigering frå eitt domene til eit anna (vi er usikre på om det var ein god idé eller ikkje).

Kva er ein responskode?

Dei fleste kjenner responskoden 404 – Sida vart ikkje funnen. I HTTP-protokollen er det mange statuskodar, som blir brukt for ulike føremål. Kodane blir brukt for å utveksle standardisert informasjon mellom tenaren (servaren, i dette tilfellet allkunne.no) og lesaren.

Den vanlegaste statuskoden er 200 OK. Då har ein lesar bede om å få innhaldet frå ein bestemt URL, servaren forstod kva innhald han skulle vise og alt gjekk ok med å finne fram innhaldet. Dersom det ikkje går bra, for eksempel fordi servaren ikkje klarte å forstå førespurnaden, sender han 404 Ikkje funnen, eller kodar som 500 Intern servarfeil.

Responskodar frå allkunne.no

For allkunne.no bestemte vi oss for å bruke berre nokre få statuskodar:

Når ein omdirigerer ein heilt nettstad til ein annan er det ikkje vanleg å sende 404 eller 410. Det er lett å tenkje at ein vil ha med seg så mykje trafikk som mogleg, og omdirigere alt ein ikkje heilt forstår kva er med med 301 til ei statisk infoside eller framsida.

På grunn av erfaringane med omdirigering av det danske leksikonet bestemte vi oss for å bruke både 404 Ikkje funnen (for Allkunne-artiklar vi ikkje hadde klart å mætsje med rett SNL-artikkel) og 410 Forsvunne for artiklar vi ikkje ville ha på snl.no.

Erfaringane så langt

Til no, snaue tre månader etter at vi slo av allkunne.no, er det er registrert 1,1 millionar førespurnader til servaren. 67 % var etter artiklar, 94 % var frå bottar.

Vi veit ikkje om bot-trafikken til allkunne.no er representativ, men det er ganske tankevekkjande at 94 prosent av trafikken til ein stor norsk nettstad er frå bottar.

Kva er ein bot?

Ein søkjerobot (crawler, spider) er ein internett-bot som systematisk surfar internett, og blir som regel brukt for å indeksere nettsider til søkjemotorar. Søkjerobotane lastar ned lokale kopiar av nettsidene for analyse. Søkjerobotane har eksistert nesten like lenge som internett og alle søkjemotorar er avhengig av ein slik søkjerobot.

Det aller meste av trafikken til allkunne.no (94 prosent) er frå robotar. Det meste av trafikken er søkjerobotar (Google, Bing, Yandex m.fl.), ein del er frå ulike indekseringstenester, noko ser ut til å vere statleg etterretning (?) og ganske mykje er heilt uforståeleg trafikk.

Førespurnader til allkunne.no

I løpet av dei snaue tre månadene som har gått sidan vi slo av allkunne.no og slo på omdirigeringsmotoren vår (sjå nedanfor), har vi registrert 1 178 034 førespurnader til servaren.

Slik har vi svart:

301 Omdirigering629 25153 %
403 Forbode69 0796 %
404 Ikkje funnen88 4658 %
410 Sletta391 22633 %

Alle 301 har gått til riktig artikkel på snl.no.

Vi har altså gått «glipp» av 548 770 førespurnader som vi kunne omdirigert til snl.no.

Kvifor ville vi ikkje ha denne trafikken? For det fyrste er ein svært stor andel bottar, og vi vil ikkje at dei skal indeksere ei tilfeldig «omdirigeringsinformasjonsside» på snl.no. For det andre er det betre for brukarane om dei får klår og tydeleg informasjon om kva som har skjedd. Vi trur at dersom vi omdirigerer berre relevante ting, kan vi kanskje halde på PageRank m.m. hos Google.

Ein stor del av denne trafikken var etter bilete. Bileta på allkunne.no hadde så låg oppløysing av det var vanskeleg å få flytt dei til snl.no, så vi bestemte oss tidleg for ikkje å overføre bileta.

Slik har fordelinga av trafikk frå bottar og «folk» (d.v.s. alt vi ikkje har klart å identifisere som bottar) til allkunne.no vore dei siste tre månadene:

Førespurnader frå bottar og folk til allkunne.no i perioden 9. juni til 29. august.
Blå strek er bottar, grøn er det vi trur er folk (men truleg ein god del bottar i det talet òg).

Det vi ser er at bot-aktiviteten auka etter at vi slo av alkunne.no. Google m.fl. ville altså finne ut kva som har skjedd med sidene som ligg i indeksane deira. Så roa det seg litt etter nokre dagar, men trafikken har halde seg relativt høg. Trafikken frå faktiske folk gjekk raskt ned etter at vi slo av allkunne.no: Etter ei veke var dei alle fleste brukarane vekke.

Responskodar som er sendt

Rett etter at vi slo av allkunne.no såg vi at det var mange som forsøkte å opne bilete på allkunne.no. Vi ser at biletsøket til Google er mykje treigare til å oppdatere innhaldet sitt enn det vanlege nettsøket. Den absolutt størstedelen av førespurnadane til allkunne.no frå vanlege brukarar var til bilete.

Då vi slo av allkunne.no var det mange URL-ar som vi ikkje visste om, og vi sende ut mange 404-kodar dei fyrste dagane. Vi sette i gang eit relativt stort arbeid med å manuelt omdirigere førespurnader etter einskild-URL-ar på allkunne.no til rett side på snl.no. Denne innsatsen fungerte:

Dette er det vi har sendt av responskodar frå allkunne.no til IP-adresser som vi ikkje har identifisert som bottar.

Om vi ser på korleis vi har svart robotane er biletet veldig annleis:

Vi ser at nokre, særleg Google, testar dei same URL-ane mange gongar for å sjekke om vi verkeleg meiner at sida er omdirigert (301) eller borte (410).

404-førespurnadane auka kraftig etter eit par dagar: Søkjerobotane forsøkte å hente sidene mange gongar for å sjekke om sida verkeleg var 404, eller om vi hadde fiksa problemet.

Og ja: Vi fiksa problemet for mange sider. Auka i 404 overraska oss litt, og to studentar på sumarjobb fekk i oppgåve å sitje éin dag kvar for å leggje inn rette omdirigerings-URLar. Dei starta på jobben på føremiddagen 13. juni, og vi la ut endringane kvelden 13. juni. Oppdateringane hadde momentan effekt: Dagen etter var førespurnadane til 404-sidene langt lågare.

Korleis oppfører bottane seg?

Vi loggar kva bottar som er innom allkunne.no.

Rundt 40 prosent av bot-trafikken er Google , 19 prosent Bing, 10 prosent Apple. Det er lite overraskande.

Meir overraskande er at 7 prosent av bot-trafikken er frå eitt eller anna elevprosjekt hos Oslo kommune, at 4 prosent ser ut til å vere kinesisk etterretning eller eitt eller anna statleg kinesisk (?) og 4 prosent er ein servar hos tyske Bertelsmann som lastar dei same sidene om att og om att.

Rundt halvparten av bot-trafikken ser ut til å ta omsyn til responskodane vi sender. Den andre halvparten ignorerer svara dei har fått tidlegare, og hentar dei same sidene dag etter dag. Sjølv om vi altså har fortalt for eksempel Bertelsmann at ei side er fjerna (410) forsøker dei å opne den same sida dag etter dag. Feedcheck forsøker å laste RSS-feeden på allkunne.no kvart tiande minutt, heile døgnet, sjølv om dei har fått beskjed om at RSS-en er fjerna 48 160 gongar (!).

Kor lenge bør ein omdirigeringsmotor stå på?

Vi er usikre på kor lenge omdirigeringsmotoren som no ligg på allkunne.no bør vere i drift. Vi såg for oss at dei fleste søkjebottane ville få med seg at innnhaldet har flytta til snl.no relativt raskt, men dette viste seg å ikkje stemme: Google er framleis innom 10–20 prosent av allkunne.no-artiklane kvar einaste dag, tre månader etter at vi byrja omdirigere all trafikken.

Effekt på snl.no

Vi har knapt sett innverknad på lesinga av snl.no etter omdirigeringa, og er usikre på den faktiske effekten av omdirigering.

Dette er også svært vanskeleg å måle: Vi veit kor mange førespurnader til allkunne.no som har blitt omdirigert til snl.no, men ser samtidig at dette knapt har hatt innverknad på for eksempel sidevisningstala som blir registrert i Google Analytics for sidene vi har omdirigert til. Det er òg vanskeleg å få systematisk målt om PageRank er overført eller ikkje.

Vi fylgjde Googles retningsliner for omdirigering frå eitt domene til eit anna og varsla Google om omdirigering i Search Console, i tillegg til omdirigering gjort på artikkelnivå. I dag: Tre månader etter at allkunne.no vart slått av, har Google framleis tusenvis av Allkunne-URL-ar i indeksen sin, men alle ser ut til å ha SNL-innhald i seg (basert på snippetane som er i søkjeresultata).