Spämm kui blogide kasvav probleem
24.03.2007 | GunnarVaadates viimase nädala jooksul DT blogis toimuvat tuleb hirm peale. Spämmi on pagana palju. Ja ma arvan, et see on alles algus, mitte lõpp. Seni on meid spämmi eest edukalt kaitsnud Akismet. Eile hommikuse seisuga oli Akismet blokeerinud 164 kommentaari, mis eranditult püüdsid reklaamida pornosaite ja erinevaid odavaid ravimeid.
Tumedad ennustused
Kaspersky hoiatas CeBIT 2007 raames antud intervjuus, et arengumaade IT jõudmisel arenenud maade tasemele ei jõua antiviirused ja spämmifiltrid enam viiruste ja rämpskirjade tulvaga võidelda. Meile, blogijatele, tähendaks see seda, et populaarsemad ja paremini leitavad blogid satuvad senisest kordi karmima rämpsu laviini alla.
Ma ei taha lõuna poolkera ja idamaade inimesi kuidagi solvata, kuid nendegi hulgas on inimesi, kes arvuti taga just inglitena ei käitu. Samuti meenub kellegi soomlase ennustus, et aasta 2006 paiku ei suuda spämmiga enam keegi võidelda. Noh, olukord on läinud keerukamaks, kuid mitte lootusetuks.
Samas täiustuvad ka rämpsu vastu võitlemise tehnoloogiad ning omal moel on järjest kasvav spämmide laviin ajendiks, mis sunnib firmasid ja teadusasutusi välja töötama järjest paremaid spämmiga võitlemise vahendeid.
Lapsed vanniveega välja
Rämpsu manuaalne sorteerimine on juba praegu näiteks DT pisikese blogi korral rämpsu rohkematel päevadel mõeldamatu, sest meil on päev läbi prügi sorteerimisele palju paremaid alternatiivseid tegemisi, nagu näiteks klientidele infosüsteemide loomine ja veebide disainimine. Olgu, hetkel aitab meid Akismet ja lähiajal lisame juurde veel tõrjevahendeid, kuid ühel hetkel saabub punkt, millal kaitsevarustus võib segama hakata blogi igapäevast toimimist.
Samas ei taha me kuidagi kahandada oma blogi kasutusmugavust igapäevaste lugejate jaoks, kuid me ei saa osta aega juurde, et käsitsi rämpsu hulgast välja sorteerida kommentaare, mis pole rämps, kuid paraku sinna sattunud. See on meie tänane probleem, millele me püüame leida head lahendust. Kui me midagi oleme välja töötanud, siis teavitame sellest ka teisi blogijaid.
Ideaalset kahurväge pole olemas
Kui vaatame täiendavaid meetodeid rämpsuga võitlemiseks, siis on igal meetodil omad nõrkused, mis võivad segada meie blogi seni mugavat külastamist ja kasutamist.
- Märksõnade filtrid. Märksõnade filtrid võivad olla head asjad küll, et takistada mõnede kommentaaride või trackback‘ide avaldamist lehel, kuid need võivad blokeerida ka täiesti asjalikud kommentaarid. Kui näiteks asjalik kommentaar sisaldab lauset “Minu blogisse lisati ööga 100 Viagra reklaami”, siis võib märksõnade filter selle kommentaari välja praakida, kuid kommentaar ise on igati adekvaatne. Näiteks selgitab lahke lugeja, kuidas ta selle probleemi lahendas.
- IP-filtrid. Spämmimiseks kasutatakse tihti kodukasutajate arvuteid, et tegelik spämmer ise varju jääks. Paari aasta tagune statistika näitas, et kõige magusam palake igasuguste rünnakute, nii DDoS (Distributed Denial of Service) kui ka spämm, organiseerimiseks olid rootslaste koduarvutid, mis istuvad ilma igasuguse kaitseta kiirete ühenduste taga. Loodetavasti on olukord muutunud tänu Windows XP tulemüürile, kuid IP-filtritest lähtuv probleem on alles.Näiteks, kui eile korraldati mingi dünaamilise IP-aadressi alt meile rünnak ning me blokeerime selle IP-aadressi, siis ei välista miski, et juba homme saab selle IP-aadressi mõni teine kasutaja, kes tahab postitada blogisse igati asjaliku kommentaari. Et tema IP-aadress on blacklist‘is, siis tema kommentaari ei avaldata.
- Agentide filter. Üks võimalus on filtreerida ka brausimise tarkvara, mida külastajad kasutavad. Iga brauser saadab serverile ennast tutvustava tähemärkide jada, mida inglise keeles tuntakse termini User-Agent Header all. Neid header‘eid kontrolliv filter aitaks ehk natukene, kuid sellega kaasneks kohe uued probleemid. Nimelt peaksime lubatud brauserite nimekirjaga tegelema iga nädal, et ka uute ja vähetuntud brauserite kasutajad saaksid meile kommentaare jätta. Spämmerite probleemi see ei lahenda, sest spämmi robot võib ennast tutvustada suvalise brauserina.
Hetkel keerleb mul peas veel mitu ideed, kuidas võiks blogi rämpsu eest kaitsta, kuid nende ideede juurde pöördume tagasi siis, kui nad piisavalt küpsed on.
Lisatööst ei pääse
Ükskõik, mida ka ei kasutata, peab inimene ennast ikka ise vahele segama, et blogi püsikundede kommentaarid ikka kindlasti ilmuksid ja et spämm ikka kindlasti ei ilmuks. Selge on see, et ei inimtööd ega automaatikat ei saa 100% ulatuses rakendada, sest inimesele käiks kõige haldamine üle jõu ja automaatika võib jällegi kergesti eksida. Seega on see nagu majanduse harjutustunni ülesanne leida nõudmise ja pakkumise kõverate lõikepunkt.
Sõltuvalt kasutada olevatest vahenditest ja nende efektiivsusest, vajaliku inimressursi hulgast ning spämmide hulgast on eelmainitud kujuteldav lõikepunkt iga blogi korral erinev.
Parim lahendus tuleb veel leida
DT võtab blogi senisest tõhusama kaitsemise spämmimise eest koheselt päevakorda. Loomulikult kirjutame oma saavutustest ka siin blogis.

25.03.2007 kell 17:01
Spämmi probleem on täiesti üldine ja sellest pole pääsu. Õnneks aga võib eestlane täna veel ennast lohutada, et Eesti robotid pole tegijad. Ainus mis hetkel meenub on basic.ee mis vahepeal kollitas kommentaare.
Endal on õnneks Akismet seni oma tööd väga edulat teinud ja kinni on peetud seni 30853 pämmi kuid see arv suureneb igapäevaselt umbes 200…400 kommentaariga. Jubedaks kisuvad need arvud.
25.03.2007 kell 17:18
Kixs — b*s*c-punkt-ee näitega tuletasid meelde kohati lõbusa jutulõnga Minutist. Teema ise muidugi väga tõsine, aga õnneks vist ei ole keegi peale Teder & Co Eestis sellist skämmi blogidesse puistamas käinud. See oli muidugi neil püüdlik käsitöö, eks eestikeelseid lehti “reklaamiva” spämmiboti loomist peame veel ootama (just kidding :P).
25.03.2007 kell 17:27
Nuh, vaevalt, et nad selleni nii pea jõuavad. Olles nii mõnda lähtekoodi näinud, võin väita, et arenguruumi koodi kirjutamisel on veel valgusaastate jagu.
Aga see selleks.
Mind huvitab see küsimus, et mis saab blogide arvu kasvamisel edasi. Spämmi eest tahavad ennast kaitsta kõik ja samme hakatakse selleks tegema ikka siis, kui õnnetus on juhtunud. Juba praegu küsib Akismet raha lehekülgedelt, kus liiklus elavam ja kontrollimist vajavaid materjale palju.
Kuid kas tekib mingi hetk, mil pisikesed blogid annavad long-tale efekti? Ehk siis, kas mingil hetkel suurendavad pisikesed blogid Akismeti serverite koormust sedavõrd, et tasuliseks tuleb teha kogu teenus? Hetkel pole need tasud teab mis suured, kuid needki võivad ühel hetkel tõusta kui serverite ressursi ja ribalaiuse järele vajadus oluliselt kasvab.
25.03.2007 kell 17:29
Meie esimene samm spämmivastase võitluse tõhustamisel oli linnukese tegemine ühte checkbox‘i — nimelt pakub Akismet 2 sellist suvandit nagu “Automatically discard spam comments on posts older than a month.”
Sellest option‘ist pajatab Matt pikemalt siin: http://blog.akismet.com/2007/01/22/akismet-wordpress-plugin-20/
“Before I started to use this option, I used to have tens of thousands of comments in my Akismet caught spam queue every day, and now it’s only a dozen or two and is easy to scan to look for the rare mistake.”
25.03.2007 kell 17:31
Muideks, täna hommikuse seisuga oli tulnud ainult 8 spämmi. Seega efektiivne lahendus vist. Kui viimase nädala tavaliseks ööpäevaseks laksuks oli 200 ja nüüd 8, siis saame 200/8 = 25 kordse efektiivsuse.
26.03.2007 kell 12:56
Gunnar, spämmijad kontrollivad ka, kas postitus läks läbi või mitte. Yldiselt paar korda ehk proovitaxe, see järel (kui ei õnnestu) - > delete from *sql.
Ei kao see spämm ära seni, kuni nr 1 lehe kvaliteedi hinnanguks on lingid sellele lehele.