Google spam in 2011

Vandaag heeft Matt Cutts een blogpost online gezet waarin hij beschrijft wat (en dat) er maatregelen genomen worden tegen google spam en zogenaamde content farms en sites die proberen met Google te spelen. Ik haal er even paar citaten uit en met wat ik hier in Nederland zie gebeuren, overigens word er vooral gesproken over de Engelstalige index en weten de meeste SEO’s wel dat er een behoorlijk verschil zit per taal in de algoritmes en haar invloeden.

As we’ve increased both our size and freshness in recent months, we’ve naturally indexed a lot of good content and some spam as well. To respond to that challenge, we recently launched a redesigned document-level classifier that makes it harder for spammy on-page content to rank highly. The new classifier is better at detecting spam on individual web pages, e.g., repeated spammy words—the sort of phrases you tend to see in junky, automated, self-promoting blog comments.

Yupz, het was mij inderdaad opgevallen dat zoekterm dichtheid en gerelateerde woorden de afgelopen 4 a 5 maanden stukken beter zijn gaan werken, dus ik geloof best dat ze wat nieuwe algoritmes hebben geinstalleerd, in de praktijk zie je daar nog niet bijzonder veel van terug in de Nederlanse index/algoritmes. Aan de andere kant horen we ook genoeg affiliates die gekelderd zijn met hun sites, waarvan verwacht werd dat het met de hand gedaan werd, ondanks dat Google daar geen fan van is. Dit zou natuurlijk ook de invloed van het nieuwe algoritme kunnen zijn. Interessant zou zijn om eens te kijken naar de sites die een behoorlijke keldering hebben meegemaakt ten op zichtte van de sites die nu nog ranken met in mijn ogen een behoorlijke zoekterm dichtheid.

And we’re evaluating multiple changes that should help drive spam levels even lower, including one change that primarily affects sites that copy others’ content and sites with low levels of original content.

Ah, doei contentscrapers. Dat is echt goed nieuws, herkauwen van content zit echt niemand op te wachten.

As “pure webspam” has decreased over time, attention has shifted instead to “content farms,” which are sites with shallow or low-quality content. In 2010, we launched two major algorithmic changes focused on low-quality sites. Nonetheless, we hear the feedback from the web loud and clear: people are asking for even stronger action on content farms and sites that consist primarily of spammy or low-quality content.

En nog een verandering van sites die alleen maar content publiceren om advertenties te kunnen blijven draaien of alleen maar gewoon long tail verkeer binnen kunnen halen. Sites die dus zogenaamde content farms zijn. In mijn ogen prima om hier wat aan te doen en ook iets dat serieuze SEO’s ook al tijden adviseren, echter worden ze soms voorbijgestreefd door de realiteit met 450 links van startpagina klonen. Dat blijft een moeilijk verhaal om te verkopen (of verklaren).

Conclusie

We kunnen rustig stellen dat Google hard bezig om haar index zo volledig en correct mogelijk te krijgen. Dit gaat ten kostte van de trukendoos van veel partijen, welke nu toch weer op zoek moeten naar andere manier om hun website te vermarkten. Ik zou aanraden om zeker  in de social media te gaan rondkijken, er zijn zoveel kansen je moet er alleen mee aan de slag willen.

Ik ben wel benieuwd hoe jullie hier tegenaan kijken?

Link Building Tip van de week!

Zonder meteen een eikel te willen zijn, is de tip van de week: Zorg dat je site er serieus uitziet! Je moet het van de gunning hebben van diegene van wie je gericht een goede link wilt. Comment spam helpt hier dus ook niet bij mee. Het gaat tenslotte niet alleen om de nummers, maar ook om de kwaliteit.

Verzoeken als deze krijg ik regelmatig in de e-mail of als comment geplaatst, en ik kan je verzekeren dat het zo in ieder geval niet gaat lukken. De gunnigsfactor is bijzonder laag, evenals de relevantie, geef me dan in ieder geval een goede reden om te linken naar jouw website, en motiveer dit dan ook.

Heeft iemand nog een tip(s) voor mijn site.
Ben me nu net een beetje an het verdiepen in deze materie. Heb nu 1000 backlinks die natuurlijk 2000 moeten worden. En een Pg van 3. Wat toch een 4 moet kunnen worden.

Ik hoop dat je wat kunt met deze tip!

Lekker spammen in de zon!

Ik zit er al een tijdje mee in mijn maag. Google doet haar stinkende best om sites die de index volspammen een lagere ranking te geven. Echter als ik nu na bijna twee jaar terugkijk op het anti-linkinkoop beleid van Google heeft het niet echt geleid tot een grote verbetering.

Sterker nog, de zaken staan er zo mogelijk nog slechter voor. Halve spamsites, van grote merken die grote risico’s nemen, staan nog steeds hoog in de index door bakken vol met startpagina-kloon links waar de relevantie nog steeds ver te zoeken is. Het is nog steeds niet onmogelijk, ook al zegt Google van wel, om sites door middel van link-inkoop uit de top 50 te krijgen. Verborgen tekst is weer stukken makkelijker geworden door allerlei jQuery-achtige oplossingen en thickboxen en sites die proberen waarde toe te voegen voor de gebruiker komen niet de top 10 binnen omdat ze nog niet genoeg ‘autoriteit’ hebben opgebouwd (lees: niet genoeg geld hebben om al die startpagina-kloon links te kopen, tot zover kwalitatieve link building).

Is het nu werkelijk zo dat Google het niet voor elkaar krijgt om al deze zooi op te ruimen? Moeten ze echt de hulp hebben van SEO’s om de SERP’s mooi schoon te krijgen? Is het nu echt nodig dat we gaan klikken om de index schoon te houden?

Als je bijv. op [vakantie egypte] zoekt staat de grootste “thin affiliate” van Nederland prima bovenaan. Misschien hoort deze daar zelfs wel, maar leg mij eens uit hoe je dit kunt rijmen met:

Thin affiliate sites: These sites collect pay-per-click (PPC) revenue by sending visitors to the sites of affiliate programs, while providing little or no value-added content or service to the user. These sites usually have no original content and may be cookie-cutter sites or templates with no unique content.

Ik kan er gewoon moeilijk bijkomen met mijn hoofd en kan me hier ook behoorlijk druk over maken. Veel bureau’s doen hun best om haar klanten een advies te geven dat aan de Google guidelines voldoet, of in ieder geval zeker niet over het randje te gaan. De basis van het bouwen van een goede site, een goede online presence en een online merk word door elk bureau netjes gepropageerd, zoals Google het graag ziet. En vervolgens zie je allerlei sites met toch wel discutable methodes gewoon nog steeds goed ranken. Frustrerend, en dit lees je ook met enige regelmaat terug in de Google webmaster forums

Wat is nu het punt van deze post?
“Don’t hate the players, hate the game.” Ik ben mijn frustratie kwijt en kan morgen weer met een frisse blik naar mijn werk bij Onetomarket kijken en wie weet adviseer ik ook wel een thickboxje meer aan mijn klanten, want er kunnen tenslotte makkelijk 500 extra woorden onder een ‘lees meer’ linkje, zodat je de gebruiker de best mogelijke ervaring levert…

Eerste Search Marketing Thursday

In navolging op Mobile Monday en Web Analytics Wednesday komt de Taskforce Search van het IAB op 23 april voor het eerst met de Search Marketing Thursday. Deze sessie zal een korte recap van de SES Amsterdam zijn waar Edward ‘Edwords‘ Blacquiere uit zal wijden over de Nederlandse Search markt in 2009 en waar Maxlead de Luca case zal presenteren waarmee zij de SEM award 2009 wonnen.

Datum: 23 April 2009
Tijd: 16:00 tot 18:00
Plaats: Seats2Meet Utrecht

Dit wordt vanzelfsprekend afgesloten met een borrel.

Ben je geïnteresseerd in de nieuwste ontwikkelingen, cases en andere info op het gebied van Search? Zorg dan gewoon dat je erbij bent. Iedereen is welkom.

Schrijf je wel even in via search[@]iab.nl.

Voor de nu al fans ook nog even de data van de overige Search Marketing Thursdays van dit jaar:

  • 18 juni
  • 17 september
  • 19 november

Noteer maar alvast in je agenda.

Virus protectie: robots.txt

In Duitsland ontvangen vele webmasters een e-mail waarin staat dat je via een “disallow all” in je robots.txt kunt voorkomen dat je site door een virus wordt geïnfecteerd. Ik kwam op deze post via stefan juhl zag ik onderstaande e-mail. Prima aanpak om je concurrenten te weren uit Google.

Dit zou je dan ook prima ‘negative SEO’ en erg agressief kunnen noemen.

Nederlandse Versie (erg ruw vertaald)

Geachte lezers

Op het ogenblik worden miljoenen webservers aangevallen door virussen.

Om uw website te beschermen kunt u de volgende handelingen uitvoeren:

www.domeinnaam.nl/robots.txt

De data die u in het robots.txt bestand kunt zetten:
_____________________________________________

User-agent: *
Disallow: /

______________________________________________

Deze slaat u op als robots.txt en plaats u in de bovenste directory van uw website.

Alleen zo bent beschermd tegen schade die door dit virus kan ontstaan, als deze uw website bezoekt.
Doet u dit alstublieft snel omdat u deze week nog een aanval kunt verwachten.

Heeft u nog vragen?

Internet-Security-Team

Original German version:

From: “Internet Security Moers”
To:
Date: Mon, 17 Mar 2008 11:30:16 +1000
Subject: Achtung, bitte Logindaten und Passwort bereithalten
Subject: ACHTUNG, gemeiner VIRUS. Dringend diese Datei auf Ihrem Webserver
einbinden
========================================

Sehr geehrte Damen und Herren,

im Moment werden Millionen Webserver von Viren befallen.

Bitte binden Sie unbedingt den Anhang zum Schutz auf Ihrer Webseite
in folgendes Verzeichnis ein:

www.XXXXXXXX.XXX/robots.txt

Die Robots-Datei erstellen Sie mir Ihrem Editor:
_____________________________________________

User-agent: *
Disallow: /
______________________________________________

Diese speichern Sie als robots.txt und binden Sie in Ihrem Hauptverzeichnis
ein.

Nur so ist sicher, dass kein Schaden entsteht indem Sie dem Virus
verbieten, Ihre Webseite zu besuchen.
Bitte beeilen Sie sich, da an diesem Woche mit einem erheblichen Angriff zu
rechnen ist.

Noch Fragen?

Internet-Security-Team

Zouden er mensen zijn die deze hoax niet zouden begrijpen?

Google Penalty? een verklaring voor de minus-950 penalty

Al lezend in mijn RSS feeds vond ik zowaar een verklaring rond het fenomeen Minus-950 penalty van Google. Op Search Engine Roundtable. Webmasterworld administrator: Tedster denkt dat het komt omdat sites geïndexeerd worden op thema en als er bepaalde gerelateerde zoektermen voorkomen, dit kan worden gezien als over-optimalisatie. Google zal dit dan bestraffen door je site 950 plaatsen terug te plaatsen in de index.

Wat is nu precies de minus-950 penalty
Rond september 2005 zagen een aantal webmasters op bepaalde zoektermen hun website niet meer in de top 10 terug. Na onderzoek bleek dat de website altijd rond de 950 plaatsen terug in de zoekmachine index was gezet. Grote verontrusting is hierdoor ontstaan op fora’s en natuurlijk ging iedereen op onderzoek uit. Een van de onderzoekers, Tedster, heeft als verklaring een nieuw patent dat door Anna Lynn Patterson van Google is vastgelegd dat heet: Detecting spam documents in a phrase based information retrieval system. kortweg gezegd staat hierin:

Phrases are identified that predict the presence of other phrases in documents. Documents are the indexed according to their included phrases. A spam document is identified based on the number of related phrases included in a document.

Nu in het Nederlands.

Zoektermen die worden gevonden en die de aanwezigheid van andere zoektermen in documenten kunnen voorspellen. Documenten worden geïndexeerd volgens een aantal zoektermen, een spam document wordt gevonden doordat er een bepaald aantal gerelateerde zoektermen in het document zitten.

Kortom, is je pagina over geoptimaliseerd op bepaalde zoektermen dan zul je niet gaan ranken in de eerste 950 resultaten.

Hoe kom je nu precies aan zo’n minus-950 penalty
Penalty’s ontstaan doordat algoritmes in zoekmachines proberen te zien of een pagina zoekmachine spam of geen zoekmachine spam is. Door goed zoekterm onderzoek te doen bouw je een lijst met zoektermen op die veel gebruikt worden in je branche en in de zoekmachines. Hierdoor krijgen veel geoptimaliseerde sites een bepaalde structuur, welke is opgebouwd op basis van meest gebruikte zoektermen. Het veelvuldig gebruik van dezelfde zoektermen kan dan ook zorgen voor een overkill van een bepaald zoekterm, dit natuurlijk om de keyword density te beïnvloeden. Tevens zullen deze pagina’s doorlinken naar andere pagina’s. Door de juiste zoektermen in de anchor-tekst te gebruiken verkrijgt met een thematische link, welke meer waarde heeft als een link van bijvoorbeeld startpagina.nl. Door onnatuurlijk optimalisatie ontstaat dan een pagina welke door het algoritme van de zoekmachine als zoekmachine spam kan worden betiteld.

Interessanter, hoe kom je nu van zo’n minus-950 penalty af?
Stel je hebt ooit je pagina’s over geoptimaliseerd en zodoende een minus-950 penalty opgelopen, hoe kom je daar dan in vredesnaam vanaf? De volgende vergelijking wordt door Tedster gegeven:

Zie het als een slechte gezondheid in een bepaald deel van je lichaam, doordat je niet genoeg hebt gehad van een bepaalde voedingstof. Ondanks dat je meer dan genoeg andere gezonde voedingsstoffen hebt zul je zonder de juiste voedingstof niet beter worden.

De oplossing is dus eigenlijk vrij simpel. Regel goede, nieuwe, andere, inkomende links (en een paar is genoeg) naar de pagina’s in je website. De anchor tekst moet dan de problematische zoekterm bevatten. Klinkt vrij simpel toch? We nog niet klaar want met ‘andere’ link wordt een link bedoelt van een website die niet voorkomt in de eerste 1000 van de resultaten op je zoekterm. Het moet dus echt een andere link zijn.

Kortweg gezegd, over optimalisatie is niet erg, de oplossing is meer optimaliseren!

Nog interessanter is natuurlijk hoe je een minus-950 penalty voorkomt.
De hamvraag is natuurlijk hoe we dit alles kunnen voorkomen. Dit is eigenlijk vrij simpel. Ontwerp je website voor bezoekers en niet voor zoekmachines. Gebruik een zo natuurlijk mogelijke manier van sitestructuur, keyword density, zoektermen en linkbuilding. Ook als is het geheel niet organisch opgebouwd, zorg er dan voor dat het in ieder geval zo lijkt. Lees de teksten die je hebt geschreven eens hardop voor en bedenk jezelf een os je die pagina ook zonder de zoekmachine zo genoemd zou hebben.

Conclusie
De uiteindelijke verklaring van Tedster is dan ook dat het eigenlijk niet meer een minus-950 penalty mag worden genoemd, maar dat het ‘zoekterm gebaseerde re-ranking” moet worden genoemd. Een van de redenen dat het dan ook geen penalty mag worden genoemd is dat Google je niet wil bestraffen maar de juiste, relevante pagina naar voren wil brengen en dat het via het algoritme ook op te lossen is.

Let wel, dit is de huidige, plausibele, theorie. Probeer hier zelf wat mee te stoeien en kijk of die ook op jouw site van toepassing is.

Corrupte DMOZ editors.

Ulco is weer aan het bloggen geslagen, en wel op netters.nl. Zijn laatste artikel liegt er, geheel in zijn stijl weer niet om, maar ik kan niet anders dan het met hem eens zijn. Hij heeft het over corrupte DMOZ editors, een fenomeen wat ook in Nederland gewoon voorkomt.

Ulco is zelf DMOZ editor, (ik trouwens ook) maar om deze mensen er uit te gooien zullen we wat meer kracht van buiten nodig hebben vrees ik.

(dit is een rechtstreekse kopie van het stukje dat Joost de Valk op Dutchcowboys heeft gezet.)

Plutosport, zoekmachinespam uit 1997…

Na het bericht dat Trouw is gebanned uit Google, dat eigenlijk maar 2 mensen in de blogosphere was opgevallen (ruben usarchy en Arjan, kwam ik deze week bij mijn zoektocht naar een paar nieuwe sneakers nog een spammer tegen. Plutosport.

Ik typ dit niet om mensen aan de schandpaal te nagelen. Wat mij vooral verbaasd is dat het met deze oude techniek het nog steeds mogelijk is om in de index van Google te blijven staan. In de Vereningde Staten, of beter gezegd; Engelstalige landen, wordt je met zo’n techniek echt binnen één dag gebanned. Dit wijst er maar weer op dat in Nederland toch andere regels, spamcontrole technieken en protocollen voor spamreports gelden dan in de US op dit ogenblik.

Plutosport maakt gebruik van Javascript redirects (ook wel doorway pages genoemd). Dit komt in het kort neer dat je op de indexpagina een scriptje hebt staan dat mensen die Javascript aan hebben staan doorstuurt naar de daadwerkelijk shop en dat mensen en spiders die geen Javascript kunnen lezen pagina’s te zien krijgen welke zijn volgestopt met allerlei zoektermen. Een van de pagina’s waarbij dit gebeurd is: http://www.plutosport.nl/nike_voetbalschoen.html (te zien in de Google Cache. Om een overzicht te krijgen van alle pagina’s welke geïndexeerd zijn voeren we in Google de volgende query in: site:www.plutosport.nl. In het totaal zijn het zo’n 52 pagina’s.
De maker van de website van plutosport heeft de shop heeft met behulp van een robots.txt de oorspronkelijke shop afgeschermd.

Ik heb een aantal korte tips op een rij gezet mochten ze ooit besluiten, vanwege een kleine push door Google of uit zichzelf, om de boel netjes aan te pakken en de richtlijnen van de zoekmachines te volgen.

  • Haal die robots.txt weg en zorg dat spiders gewoon de URL’s kunnen volgen.
  • Verwijder uiteraard alle doorway pages en plaats een nette 301 redirect naar de relevante pagina’s.
  • Zorg dat navigatiemenus via href’s werken in plaats van via Javascript links. Dit is niet alleen voor de zoekmachines maar voor de gebruikers ook prettig als zij gebruik willen maken van Tabs bijvoorbeeld, of een pagina/product willen laten zien aan een kennis.
  • Maak optimaal gebruik van alle teksten die je nu al hebt, al deze teksten zijn nu zo goed als waardeloos, wat toch erg jammer is gezien de long tail.

Tuurlijk kan ik nog veel meer tips geven, maar ik van mening ben dat dit bewust is gedaan. Het bureau dat deze website heeft ontwikkelt heeft bij een aantal andere klanten van ook een soortgelijke constructie gebruikt. Daarom voel ik me niet geroepen om hier een geheel gratis consult te geven. Ik ga er maar van uit dat Plutosport weet wat er met hun website aan de hand is. Ik wil wijzen op het gevaar dat dit soort grappen met zich meebrengt. Er hoeft maar 1 concurrent een spamreport in te dienen en je bezoekers uit Google (Yahoo en MSN, maar in mindere mate) worden teruggezet naar nul. Dit lijkt me niet wensbaar voor een retailer.

Ik wil verder totaal niet ingaan op het feit of zoekmachine spam goed of fout is. Enige wat ik wil opmerken is dat het zeker onverstandig is als je niet precies weet wat je aan het doen bent en dat je niet zoals Trouw moet gaan doen alsof je neus bloed, of zelfs verwijten gaat maken.

Zoekmachinespam door de Hostingman

De Hostingman wil graag gevonden worden door zoekmachines. Dit is dan ook duidelijk te merken op zijn homepage: www.dehostingman.nl (nofollow uiteraard, om linklove te voorkomen). De pagina is verdacht lang. Als we CTRL + A doen, (alles selecteren) dan zien we ook waarom. De hostingman gebruikt witte tekst op een witte achtergrond.

-UPDATE- 25 November 2007: Het ziet er naar uit dat de hostingman het op de legale wijze heeft opgepakt.

Dit heeft hij bij een aantal pagina’s gedaan, waaronder webdesign, webhosting, pop3 en nog wat meuk. Dat die beste hostingman spamt vind ik nog niet eens zo erg, dat Google en andere zoekmachines dit in Nederland nog steeds toestaan, dat is vele malen ernstiger. Het algoritme van Google is op andere talen dan Engels dan ook zwaar achtergesteld.