2 moodust sisuvarastega võitlemiseks
03.02.2008 | Lembit
Kindlasti on mitmed eesti blogijad kokku puutunud väga ebameeldiva nähtusega – sisuvargusega. DT blogi kirjutisi kopeerivad sulid juba ammu. Kahjuks on internetis tuhandeid (või juba miljoneid) lehti, mis automaatika abil kopivad artikleid teistelt lehtedelt ning taasavaldavad seda. Just blogide baasil saab hõlpsasti varastatud sisuga veebilehti püsti panna, sest RSS-voogudest on sisu varastamine imelihtne. Halb uudis on, et sisu varastamist on võimatu tehniliste vahenditega peatada või kontrollida. Hea uudis on aga, et leidub vähemalt kaks lihtsat nippi, mille abil blogija saab olla varastest alati sammu võrra ees.
Sisuvaraste eesmärgiks on teenida raha rämpsreklaamiga (teadagi – näiteks teatud ravimite promo) ja/või tekstireklaamidega (nagu Google AdSense). Paraku õnnestubki neil sageli kena kopikas jooksma panna ja võte selleks on lame ja lihtne – varastatud sisu söödetakse oma lehelt otsimootorite robotitele ette originaalautorist kiiremini, mistõttu otsimootorid hakkavad hoopis varast autoriks pidama ning tema leht saab kõrgemad rank'id. Halvemal juhul võib õige autor, vaeseke, suisa Google'i musta nimekirja sattuda. Allolevad varastevastased nõuanded esitas Rand Fishkin oma pikemas kirjutises Canonical and Duplicate Versions of Content.
Autorluse säilitamise tugitala 1: ping
Pingimine tähendab antud kontekstis otsimootorite ja portaalide automaatset teavitamist oma värskest kirjutisest. Enamik popimaid blogimootoreid sisaldab pingide saatmise võimalust, näiteks WordPress'is leiab selle peale administraatorina sisselogimist admin-liidese menüüst Options => Writing => Update Services (dokumentatsioon). Üldiselt pakuvad ka kõik RSS-i kaudu uudiseid koguvad saidid õpetusi oma tarkvarale pingide saatmise kohta (näited: Google, Technorati, Blog.tr.ee). On olemas ka teenused, mis enda peale võtnud korraga paljude saitide teavitamise, nagu Pingomatic, sarnane teenus on olemas ka FeedBurner'i tööriistade valikus.
Meie oleme DT blogi jaoks aja jooksul koostanud ping-teenuste nimekirja enam kui 30 URL-iga. Nii hoolitsebki WordPress selle eest, et peale iga postituse avaldamist saavad kõik tähtsamad veebi kammivad robotid sellest teada.
Autorluse säilitamise tugitala 2: täispikad URL-id
Blogijate õnneks on sisuvargad laisad. Nende vargatarkvara toob võõrad jutud nende lehtedele üle 1:1, koos tekstis sisalduvate linkidega. Varastega kimpus olev blogija peaks seega kasutama oma artiklites saidisiseseid viiteid, mis tagab, et varastatud koopiad lingivad tema lehele tagasi. Enamasti ei tähenda see blogijale mingit lisavaeva – blogide de facto standardiks on kujunenud, et blogipostituse pealkiri on ühtlasi viide iseendale, mis tagab, et iga varastatud koopia lingib originaalile tagasi. Ainus, mis tasuks üle kontrollida, on, et blogimootor kasutaks kindlasti nn. absoluutseid ehk täispikki URL-e, mis sisaldavad ka domeeninime.
Seega, näiteks peaks sinu lehe koodis olev link avaleheküljele nägema välja nii:
ja mitte nii:
Õnneks pole eesti blogide jaoks sisu varastamise probleem (veel?) väga tuline. Meie domeeniruumis ma sisuvargaid kohanud ei ole. Ka DT blogi postitusi kopivad mingid kahtlased USA saidid, ilmselt on leitud meid tänu tasapisi tõusnud rank'ile ning linkide arvule ja vaevalt, et meie eestikeelne sisu neile tegelikult kasuks on. Seega võin veel täna muudest sisuvarastega võitlemise meetoditest kirjutamise edasi lükata. Need on nimelt juriidilised meetodid, mille kohta leiab hakatuseks ühe väga hea artikli näiteks siit: Four Ways to Enforce Your Copyright: What to Do When Your Online Content is Being Stolen.
Aga oma saitide jalusesse kopiraidi märkuse lisamise peaks täna küll juba kindlasti harjumuseks kujundama.

04.02.2008 kell 11:25
Ma kardan, et selle täispikkade linkide asendamiseni jõuavad sisuvargad päris kähku - see pole midagi keerukat isegi algajale programmeerijale. Pigem taandub küsimus sellele, kuidas otsingumootoreid saab võimalikult kähku uuest sisust teavitada.
05.02.2008 kell 00:23
Suurim rõõm on see kui sind ülesse leitakse. Samas suurim mure kui sind keegi lingib. Uskumatult keerulised probleemid.
05.02.2008 kell 00:25
Küss, et millest tuleb see, et antud blogi postitused kerides tohutult hakivad ? Paistab, et prose koormus aetakse suuremaks kui epl.ee ’s ?
05.02.2008 kell 01:49
Lorelle VanFossen kirjutab haakuval teemal: Content Theft and WordPress.
Kristo: jutt ei ole linkimisest, jutt käib postituste täiemahuliste, identsete koopiate avaldamisest lehel X, ilma autorilt luba küsimata.
05.02.2008 kell 10:37
Kristo, hakkida võib seepärast, et mul peale versiooni vahetamist veel mõned pisiliigutused Wordpressi peal tegemata. Kui need tehtud saan, siis ei tohiks mingit hakkimist olla.
07.02.2008 kell 09:45
TO Lembit
Uskumatult keeruline on tänane maailm ikka. Ühelt poolt arendadakse koos wiki’isid, kus koos pannakse tekstid ja pildid ülesse. Tehakse uudise voogusid jne. Teiselt poolt ollakse hädas kui kord avaldatud tekste kuskil mujal avaldatakse. Kord on probleemiks tagasi linkimise puudumine, siis jälle täismahus avaldamine jne.
Lõpuks loeme google cachest sisu, kui originaal on kadunud. Või täname X lehte, kui meie enda server on töötamise lõpetanud aga tekste tahaks tagasi saada.
Alati saab ju RSS’is öelda, et üle YY tähemärgi tekstist välja ei anta. Minu jaoks oleks probleemiks arvatavasti ainult see, kui viited originaalile puuduksid. Samas soove ja maitseid on erinevaid
08.02.2008 kell 10:32
Huvipakkuvaks lisaks võiks olla üks lühike kanne Matt Cutts’i blogist: Duplicate content question.