Mainosforcella on taas asiaa.
Nyt puhutaan yhdestä verkkosivuston huomaamattomimmasta mutta voimakkaimmasta apuvälineestä nimeltä robots.txt. Ja vaikka nimi kuulostaa siltä, että sinulla pitäisi olla ne nörttilasit päässä ja Linux-paita päällä, niin ei – nyt puhutaan ihan oikeasti hakukoneoptimoinnista, eikä mistään rakettitieteestä. Ja minullakaan ei ole noita nörttilaseja saatika Linux-paitaa. Eikä varmaan koskaan tule olemaankaan. Mutta mennäänpä sitten itse asiaan.
🤖 Mikä ihmeen robots.txt?
Robots.txt on pienen pieni tekstitiedosto, joka majailee siellä sivustosi juuressa – eli siellä, mistä verkkosivustosi alkaa. Se antaa hakukoneiden boteille ohjeita siitä, mitä ne saavat sivustollasi indeksoida ja mitä eivät. Tämä tiedosto on se verkkosivun "portinvartija", joka kertoo, mitä hakurobotit saavat nähdä ja mihin niillä ei ole asiaa.
Ja kyllä – se vaikuttaa suoraan siihen, miten Google ymmärtää sivustosi rakenteen, sisällön ja kokonaisuuden. Eli kun tehdään hakukoneoptimointia tosissaan, robots.txt kuuluu peruspakettiin. Se on osa sitä näkymätöntä työtä, jota kutsutaan tekniseksi hakukoneoptimoinniksi.
📌 Miksi robots.txt on niin tärkeä?
Hyvä kysymys.
Robots.txt vaikuttaa suoraan siihen, miten hakukoneet ryömivät (eli crawl’aavat) sivustoasi. Jos botti ryömii ensin kaikki turhat sivut, resurssit ja kansiot, voi käydä niin, että tärkeät sisällöt jäävät vähemmälle huomiolle. Eli:
🔍 Crawl budget kuluu turhaan ja sitähän me emme halua.
💡 Hakukone ei löydä parhaita sisältöjäsi ajoissa.
🚫 Hakukone voi indeksoida vahingossa asioita, joita et halua näkyville.
🔧 Mitä robots.txt-tiedostolla voi tehdä?
No sillä voi tehdä aika paljonkin. Tässä muutama käytännön esimerkki:
Estää indeksoimattomia sivuja näkymästä hakukoneissa.
Esim. vanhat kampanjasivut, testisivut tai sisäiset resurssit.
Rajoittaa pääsyä tietyille kansioille.
Esimerkiksi /wp-admin/, /cgi-bin/ tai vaikka /testi/.
Sallia hakuroboteille pääsy oikeisiin resursseihin.
Kuten: /wp-content/uploads/ → tänne jää kuvat ja media, joiden indeksointi voi olla hyvä juttu.
Blokata tietyt botit kokonaan.
Esimerkiksi GPTBot – joka kerää tietoa tekoälylle, mutta ei välttämättä palvele sinun sivuston tavoitteita.
🧾 Miltä näyttää sitten toimiva robots.txt?
Tässä yksi esimerkki toimivasta robots.txt-tiedostosta.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
User-Agent: GPTBot
Disallow: /
Sitemap: https://www.asiakkaansaitti.com/page-sitemap.xml
Sitemap: https://www.asiakkaansaitti.com/post-sitemap.xml
Analyysi:
✅ Sallii botin päästä käsiksi kuviin ja tiedostoihin – hyvä.
✅ Blokkaa pääsyn WP:n plugineihin, ylläpitoon, turhiin sivuihin – oikein hyvä.
✅ Estää GPTBotin – fiksu veto, jos ei haluta sisältöä hyödynnettävän tekoälykoulutukseen.
✅ Mukana on Sitemap-linkit – antaa Googlelle ja muille boteille selkeän suunnan, mistä etsiä sisältöä.
👉 Tässä tiedostossa on hyvä balanssi: ei estetä liikaa, mutta estetään turha. Ja samalla säästetään crawl-budjettia juuri niissä kohdissa, missä pitää.
🔧 Lähtökohtia robots.txt-tiedostoon eri julkaisujärjestelmissä
Painotan: Nämä eivät ole kiveenhakattuja sääntöjä, vaan lähtökohtia. Hyvä robots.txt tehdään sen mukaan, mitä sisältöä haluat nostaa – ja mitä et halua hakukoneen edes vilkaisevan.
Tässä siis perustason "pohjat", jotka olisi hyvä löytyä tiedostosta, jos käytössä on jokin yleisimmistä julkaisujärjestelmistä:
📌 WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Allow: /wp-content/uploads/
📌 Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Allow: /images/
💡 Vinkit tehokkaan robots.txt-tiedoston tekoon
🔍 1. Älä blokkaa vahingossa sisältöä, jota haluat näkyviin.
Esim. /blogi/ tai /tuotteet/ – niiden pitää olla indeksoitavissa!
🔄 2. Päivitä tiedosto aina, kun sivuston rakenne muuttuu.
🧪 3. Testaa robots.txt Google Search Consolessa – sieltä näet, miten Google lukee sen.
🧭 4. Muista lisätä Sitemap-osoite mukaan.
Helpottaa indeksointia ja parantaa näkyvyyttä.
Jos olet Mainosforcen asiakas, niin sinun ei tarvitse tehdä mitään. Sivustoltasi löytyy robots.txt, on kunnossa ja toimii kuten pitää. Minä pidän siitä huolen.
Mutta sinunkin on ihan hyvä tietää, että tällainenkin pikku tiedosto vaikuttaa siihen, miten hyvin sivustosi pärjää Googlen silmissä. Se ei ehkä ole se näyttävin osa SEO:ta, mutta se on sitä näkymätöntä rakennustyötä, joka mahdollistaa näkyvyyden.
Ja jos jäi kysymyksiä, niin kysy pois – minä vastaan mielelläni.
Jos SEO-asiat kiinnostavat sinua enemmänkin, niin pintaraapaisua niihin saat, kun lukaiset lisää artikkeleitani. Vaikkapa mikä on responsiivisten kotisivujen merkitys hakukoneoptimointia ajatellen. Tai mitä se hakukoneoptimointi yleensäkin on tai vaikkapa mikä se sivustokartta sitten on?