Tekniske erfaringar med √• avvikle og omdirigere allkunne.no ūü§ď

Dette er ei sv√¶rt teknisk oppsummering av erfaringane med √• avvikle allkunne.no. Korleis b√łr ein leggje opp eit omdirigeringsregime (redirect), kor √¶rleg b√łr ein vere andsynes Google og andre bottar?

Vi skriv denne bloggposten fordi vi sj√łlv har sett etter liknande skriftlege oppsummeringar av omdirigering av heile nettstader, utan √• finne noko. Kanskje andre har bruk for desse erfaringane?

Vi har gjort store omdirigeringar av store nettstader to gongar dei siste åra:

  • I 2020 avvikla vi nettstaden denstoredanske.dk og omdirigerte trafikken til denstoredanske.lex.dk og med heilt ny URL-struktur. Dette var ein del av samarbeidet v√•rt med det danske leksikonet. Vi trur at vi gjorde nokre tabbar med det danske leksikonet: Vi omdirigerte all trafikk til det nye domenet. Der vi hadde rett URL til den nye artikkelen, omdirigerte vi dit, men alle f√łrespurnader som vi ikkje klarte √• m√¶tsje til rett URL vart omdirigert til ei statisk side p√• lex.dk (https://om.lex.dk/denstoredanske.dk). Vi trur at vi mista ein del PageRank for det danske leksikonet i samband med omdirigeringa, og lurte p√• om Google kanskje oppfatta at vi fors√łkte √• omdirigere for mykje av trafikken.
  • D√• vi skulle avvikle allkunne.no tenkte vi √• fors√łke ein annan strategi: √Ö berre omdirigere f√łrespurnader vi var heilt sikre p√• at vi kunne sende til rett side p√• snl.no. For eksempel √• omdirigere https://allkunne.no/framside/biografiar/p/vladimir-putin/99/14074/ til https://snl.no/Vladimir_Putin. Alle andre f√łrespurnader skulle gje responskodane 404 og 410, sj√• nedanfor. Vi valde √≤g √• fylgje alle Googles retningsliner for omdirigering fr√• eitt domene til eit anna (vi er usikre p√• om det var ein god id√© eller ikkje).

Kva er ein responskode?

Dei fleste kjenner responskoden 404 ‚Äď Sida vart ikkje funnen. I HTTP-protokollen er det mange statuskodar, som blir brukt for ulike f√łrem√•l. Kodane blir brukt for √• utveksle standardisert informasjon mellom tenaren (servaren, i dette tilfellet allkunne.no) og lesaren.

Den vanlegaste statuskoden er 200 OK. D√• har ein lesar bede om √• f√• innhaldet fr√• ein bestemt URL, servaren forstod kva innhald han skulle vise og alt gjekk ok med √• finne fram innhaldet. Dersom det ikkje g√•r bra, for eksempel fordi servaren ikkje klarte √• forst√• f√łrespurnaden, sender han 404 Ikkje funnen, eller kodar som 500 Intern servarfeil.

Responskodar frå allkunne.no

For allkunne.no bestemte vi oss for å bruke berre nokre få statuskodar:

Når ein omdirigerer ein heilt nettstad til ein annan er det ikkje vanleg å sende 404 eller 410. Det er lett å tenkje at ein vil ha med seg så mykje trafikk som mogleg, og omdirigere alt ein ikkje heilt forstår kva er med med 301 til ei statisk infoside eller framsida.

På grunn av erfaringane med omdirigering av det danske leksikonet bestemte vi oss for å bruke både 404 Ikkje funnen (for Allkunne-artiklar vi ikkje hadde klart å mætsje med rett SNL-artikkel) og 410 Forsvunne for artiklar vi ikkje ville ha på snl.no.

Erfaringane så langt

Til no, snaue tre m√•nader etter at vi slo av allkunne.no, er det er registrert 1,1 millionar f√łrespurnader til servaren. 67 % var etter artiklar, 94 % var fr√• bottar.

Vi veit ikkje om bot-trafikken til allkunne.no er representativ, men det er ganske tankevekkjande at 94 prosent av trafikken til ein stor norsk nettstad er frå bottar.

Kva er ein bot?

Ein s√łkjerobot (crawler, spider) er ein internett-bot som systematisk surfar internett, og blir som regel brukt for √• indeksere nettsider til s√łkjemotorar. S√łkjerobotane lastar ned lokale kopiar av nettsidene for analyse. S√łkjerobotane har eksistert nesten like lenge som internett og alle s√łkjemotorar er avhengig av ein slik s√łkjerobot.

Det aller meste av trafikken til allkunne.no (94 prosent) er fr√• robotar. Det meste av trafikken er s√łkjerobotar (Google, Bing, Yandex m.fl.), ein del er fr√• ulike indekseringstenester, noko ser ut til √• vere statleg etterretning (?) og ganske mykje er heilt uforst√•eleg trafikk.

F√łrespurnader til allkunne.no

I l√łpet av dei snaue tre m√•nadene som har g√•tt sidan vi slo av allkunne.no og slo p√• omdirigeringsmotoren v√•r (sj√• nedanfor), har vi registrert 1 178 034 f√łrespurnader til servaren.

Slik har vi svart:

301 Omdirigering629 25153 %
403 Forbode69 0796 %
404 Ikkje funnen88 4658 %
410 Sletta391 22633 %

Alle 301 har gått til riktig artikkel på snl.no.

Vi har alts√• g√•tt ¬ęglipp¬Ľ av 548 770 f√łrespurnader som vi kunne omdirigert til snl.no.

Kvifor ville vi ikkje ha denne trafikken? For det fyrste er ein sv√¶rt stor andel bottar, og vi vil ikkje at dei skal indeksere ei tilfeldig ¬ęomdirigeringsinformasjonsside¬Ľ p√• snl.no. For det andre er det betre for brukarane om dei f√•r kl√•r og tydeleg informasjon om kva som har skjedd. Vi trur at dersom vi omdirigerer berre relevante ting, kan vi kanskje halde p√• PageRank m.m. hos Google.

Ein stor del av denne trafikken var etter bilete. Bileta p√• allkunne.no hadde s√• l√•g oppl√łysing av det var vanskeleg √• f√• flytt dei til snl.no, s√• vi bestemte oss tidleg for ikkje √• overf√łre bileta.

Slik har fordelinga av trafikk fr√• bottar og ¬ęfolk¬Ľ (d.v.s. alt vi ikkje har klart √• identifisere som bottar) til allkunne.no vore dei siste tre m√•nadene:

F√łrespurnader fr√• bottar og folk til allkunne.no i perioden 9. juni til 29. august.
Bl√• strek er bottar, gr√łn er det vi trur er folk (men truleg ein god del bottar i det talet √≤g).

Det vi ser er at bot-aktiviteten auka etter at vi slo av alkunne.no. Google m.fl. ville alts√• finne ut kva som har skjedd med sidene som ligg i indeksane deira. S√• roa det seg litt etter nokre dagar, men trafikken har halde seg relativt h√łg. Trafikken fr√• faktiske folk gjekk raskt ned etter at vi slo av allkunne.no: Etter ei veke var dei alle fleste brukarane vekke.

Responskodar som er sendt

Rett etter at vi slo av allkunne.no s√•g vi at det var mange som fors√łkte √• opne bilete p√• allkunne.no. Vi ser at bilets√łket til Google er mykje treigare til √• oppdatere innhaldet sitt enn det vanlege netts√łket. Den absolutt st√łrstedelen av f√łrespurnadane til allkunne.no fr√• vanlege brukarar var til bilete.

D√• vi slo av allkunne.no var det mange URL-ar som vi ikkje visste om, og vi sende ut mange 404-kodar dei fyrste dagane. Vi sette i gang eit relativt stort arbeid med √• manuelt omdirigere f√łrespurnader etter einskild-URL-ar p√• allkunne.no til rett side p√• snl.no. Denne innsatsen fungerte:

Dette er det vi har sendt av responskodar frå allkunne.no til IP-adresser som vi ikkje har identifisert som bottar.

Om vi ser på korleis vi har svart robotane er biletet veldig annleis:

Vi ser at nokre, særleg Google, testar dei same URL-ane mange gongar for å sjekke om vi verkeleg meiner at sida er omdirigert (301) eller borte (410).

404-f√łrespurnadane auka kraftig etter eit par dagar: S√łkjerobotane fors√łkte √• hente sidene mange gongar for √• sjekke om sida verkeleg var 404, eller om vi hadde fiksa problemet.

Og ja: Vi fiksa problemet for mange sider. Auka i 404 overraska oss litt, og to studentar p√• sumarjobb fekk i oppg√•ve √• sitje √©in dag kvar for √• leggje inn rette omdirigerings-URLar. Dei starta p√• jobben p√• f√łremiddagen 13. juni, og vi la ut endringane kvelden 13. juni. Oppdateringane hadde momentan effekt: Dagen etter var f√łrespurnadane til 404-sidene langt l√•gare.

Korleis oppf√łrer bottane seg?

Vi loggar kva bottar som er innom allkunne.no.

Rundt 40 prosent av bot-trafikken er Google , 19 prosent Bing, 10 prosent Apple. Det er lite overraskande.

Meir overraskande er at 7 prosent av bot-trafikken er frå eitt eller anna elevprosjekt hos Oslo kommune, at 4 prosent ser ut til å vere kinesisk etterretning eller eitt eller anna statleg kinesisk (?) og 4 prosent er ein servar hos tyske Bertelsmann som lastar dei same sidene om att og om att.

Rundt halvparten av bot-trafikken ser ut til √• ta omsyn til responskodane vi sender. Den andre halvparten ignorerer svara dei har f√•tt tidlegare, og hentar dei same sidene dag etter dag. Sj√łlv om vi alts√• har fortalt for eksempel Bertelsmann at ei side er fjerna (410) fors√łker dei √• opne den same sida dag etter dag. Feedcheck fors√łker √• laste RSS-feeden p√• allkunne.no kvart tiande minutt, heile d√łgnet, sj√łlv om dei har f√•tt beskjed om at RSS-en er fjerna 48 160 gongar (!).

Kor lenge b√łr ein omdirigeringsmotor st√• p√•?

Vi er usikre p√• kor lenge omdirigeringsmotoren som no ligg p√• allkunne.no b√łr vere i drift. Vi s√•g for oss at dei fleste s√łkjebottane ville f√• med seg at innnhaldet har flytta til snl.no relativt raskt, men dette viste seg √• ikkje stemme: Google er framleis innom 10‚Äď20 prosent av allkunne.no-artiklane kvar einaste dag, tre m√•nader etter at vi byrja omdirigere all trafikken.

Effekt på snl.no

Vi har knapt sett innverknad på lesinga av snl.no etter omdirigeringa, og er usikre på den faktiske effekten av omdirigering.

Dette er ogs√• sv√¶rt vanskeleg √• m√•le: Vi veit kor mange f√łrespurnader til allkunne.no som har blitt omdirigert til snl.no, men ser samtidig at dette knapt har hatt innverknad p√• for eksempel sidevisningstala som blir registrert i Google Analytics for sidene vi har omdirigert til. Det er √≤g vanskeleg √• f√• systematisk m√•lt om PageRank er overf√łrt eller ikkje.

Vi fylgjde Googles retningsliner for omdirigering fr√• eitt domene til eit anna og varsla Google om omdirigering i Search Console, i tillegg til omdirigering gjort p√• artikkelniv√•. I dag: Tre m√•nader etter at allkunne.no vart sl√•tt av, har Google framleis tusenvis av Allkunne-URL-ar i indeksen sin, men alle ser ut til √• ha SNL-innhald i seg (basert p√• snippetane som er i s√łkjeresultata).