2 moodust sisuvarastega võitlemiseks

03.02.2008  |  Lembit

KrimiKindlasti on mitmed eesti blogijad kokku puutunud väga ebameeldiva nähtusega – sisuvargusega. DT blogi kirjutisi kopeerivad sulid juba ammu. Kahjuks on internetis tuhandeid (või juba miljoneid) lehti, mis automaatika abil kopivad artikleid teistelt lehtedelt ning taasavaldavad seda. Just blogide baasil saab hõlpsasti varastatud sisuga veebilehti püsti panna, sest RSS-voogudest on sisu varastamine imelihtne. Halb uudis on, et sisu varastamist on võimatu tehniliste vahenditega peatada või kontrollida. Hea uudis on aga, et leidub vähemalt kaks lihtsat nippi, mille abil blogija saab olla varastest alati sammu võrra ees.

Sisuvaraste eesmärgiks on teenida raha rämpsreklaamiga (teadagi – näiteks teatud ravimite promo) ja/või tekstireklaamidega (nagu Google AdSense). Paraku õnnestubki neil sageli kena kopikas jooksma panna ja võte selleks on lame ja lihtne – varastatud sisu söödetakse oma lehelt otsimootorite robotitele ette originaalautorist kiiremini, mistõttu otsimootorid hakkavad hoopis varast autoriks pidama ning tema leht saab kõrgemad rank'id. Halvemal juhul võib õige autor, vaeseke, suisa Google'i musta nimekirja sattuda. Allolevad varastevastased nõuanded esitas Rand Fishkin oma pikemas kirjutises Canonical and Duplicate Versions of Content.

Autorluse säilitamise tugitala 1: ping

Pingimine tähendab antud kontekstis otsimootorite ja portaalide automaatset teavitamist oma värskest kirjutisest. Enamik popimaid blogimootoreid sisaldab pingide saatmise võimalust, näiteks WordPress'is leiab selle peale administraatorina sisselogimist admin-liidese menüüst Options => Writing => Update Services (dokumentatsioon). Üldiselt pakuvad ka kõik RSS-i kaudu uudiseid koguvad saidid õpetusi oma tarkvarale pingide saatmise kohta (näited: Google, Technorati, Blog.tr.ee). On olemas ka teenused, mis enda peale võtnud korraga paljude saitide teavitamise, nagu Pingomatic, sarnane teenus on olemas ka FeedBurner'i tööriistade valikus.

Meie oleme DT blogi jaoks aja jooksul koostanud ping-teenuste nimekirja enam kui 30 URL-iga. Nii hoolitsebki WordPress selle eest, et peale iga postituse avaldamist saavad kõik tähtsamad veebi kammivad robotid sellest teada.

Autorluse säilitamise tugitala 2: täispikad URL-id

Blogijate õnneks on sisuvargad laisad. Nende vargatarkvara toob võõrad jutud nende lehtedele üle 1:1, koos tekstis sisalduvate linkidega. Varastega kimpus olev blogija peaks seega kasutama oma artiklites saidisiseseid viiteid, mis tagab, et varastatud koopiad lingivad tema lehele tagasi. Enamasti ei tähenda see blogijale mingit lisavaeva – blogide de facto standardiks on kujunenud, et blogipostituse pealkiri on ühtlasi viide iseendale, mis tagab, et iga varastatud koopia lingib originaalile tagasi. Ainus, mis tasuks üle kontrollida, on, et blogimootor kasutaks kindlasti nn. absoluutseid ehk täispikki URL-e, mis sisaldavad ka domeeninime.

Seega, näiteks peaks sinu lehe koodis olev link avaleheküljele nägema välja nii:

<a href="http://www.minuleht.ee/">Minu lahe leht</a>

ja mitte nii:

<a href="../">Minu lahe leht</a>

Õnneks pole eesti blogide jaoks sisu varastamise probleem (veel?) väga tuline. Meie domeeniruumis ma sisuvargaid kohanud ei ole. Ka DT blogi postitusi kopivad mingid kahtlased USA saidid, ilmselt on leitud meid tänu tasapisi tõusnud rank'ile ning linkide arvule ja vaevalt, et meie eestikeelne sisu neile tegelikult kasuks on. Seega võin veel täna muudest sisuvarastega võitlemise meetoditest kirjutamise edasi lükata. Need on nimelt juriidilised meetodid, mille kohta leiab hakatuseks ühe väga hea artikli näiteks siit: Four Ways to Enforce Your Copyright: What to Do When Your Online Content is Being Stolen.

Aga oma saitide jalusesse kopiraidi märkuse lisamise peaks täna küll juba kindlasti harjumuseks kujundama.

7 kommentaari sissekandele “2 moodust sisuvarastega võitlemiseks”

  1. Gunnar

    Ma kardan, et selle täispikkade linkide asendamiseni jõuavad sisuvargad päris kähku - see pole midagi keerukat isegi algajale programmeerijale. Pigem taandub küsimus sellele, kuidas otsingumootoreid saab võimalikult kähku uuest sisust teavitada.

  2. Kristo

    Suurim rõõm on see kui sind ülesse leitakse. Samas suurim mure kui sind keegi lingib. Uskumatult keerulised probleemid.

  3. Kristo

    Küss, et millest tuleb see, et antud blogi postitused kerides tohutult hakivad ? Paistab, et prose koormus aetakse suuremaks kui epl.ee ’s ?

  4. Lembit

    Lorelle VanFossen kirjutab haakuval teemal: Content Theft and WordPress.

    Kristo: jutt ei ole linkimisest, jutt käib postituste täiemahuliste, identsete koopiate avaldamisest lehel X, ilma autorilt luba küsimata.

  5. Gunnar

    Kristo, hakkida võib seepärast, et mul peale versiooni vahetamist veel mõned pisiliigutused Wordpressi peal tegemata. Kui need tehtud saan, siis ei tohiks mingit hakkimist olla.

  6. Kristo

    TO Lembit

    Uskumatult keeruline on tänane maailm ikka. Ühelt poolt arendadakse koos wiki’isid, kus koos pannakse tekstid ja pildid ülesse. Tehakse uudise voogusid jne. Teiselt poolt ollakse hädas kui kord avaldatud tekste kuskil mujal avaldatakse. Kord on probleemiks tagasi linkimise puudumine, siis jälle täismahus avaldamine jne.
    Lõpuks loeme google cachest sisu, kui originaal on kadunud. Või täname X lehte, kui meie enda server on töötamise lõpetanud aga tekste tahaks tagasi saada.
    Alati saab ju RSS’is öelda, et üle YY tähemärgi tekstist välja ei anta. Minu jaoks oleks probleemiks arvatavasti ainult see, kui viited originaalile puuduksid. Samas soove ja maitseid on erinevaid

  7. Gunnar

    Huvipakkuvaks lisaks võiks olla üks lühike kanne Matt Cutts’i blogist: Duplicate content question.

Kommenteeri

sulge
Saada link e-postiga

© DT 2012 | Creative Commons Attribution-Noncommercial 3.0 License | WordPress