Uus otsingumootor Cuil – esimene tõsine konkurent Google’ile?
28.07.2008 | Lembit
Uus otsingumootor Cuil (häälda "cool") on kuum uudis ning mitmed kirjutajad ütlevad, et Cuil võib olla esimene arvestatav võistleja Google‘ile. Esmapilgul näib, et pressi teravdatud tähelepanu on eelkõige toonud tõik, et Cuili tiimis on endisi Google’i töötajaid. Mootori enda headust on hetkel raske kommenteerida, sest Cuili teenus on ülekoormuse tõttu vaevaline. Erinevalt väidetest, et "meie algoritmid on uued ja paremad", mida korrutab iga uus otsingumasin, väärib minu arvates tähelepanu, et Cuil väidab haldavat maailma suurimat veebilehtede indeksit.
Cuili algoritmidest rääkides märgitakse, et mootor vaatleb lehekülgede asjakohasuse hindamisel lisaks linkide arvule ja märksõnadele ka lehekülje konteksti laiemalt, ehk teisisõnu oskab Cuil väidetavalt analüüsida lehekülje tekstilist sisu täpsemini kui Google.
Cuil läheneb uudselt ka kasutajaliidesele, otsingutulemusi kuvatakse mitmes veerus, misläbi hägustub klassikaline nn. pingerea UI-metafoor. Guardiani autor Jack Schofield märgib tabavalt, et nii väheneb Google’ile omane "esimese tulemuse türannia".
Guardian vahendab ka, et uue otsingumootori arendust juhib iiri päritolu Tom Costello, kelle juurte kaudu leiame selgituse mootori nimele: "cuil" on vana iiri sõna tähistamaks "teadmisi".
Kui mitmed allikad räägivad, et tiimis on mitmeid endisi Google’i töötajaid, siis Guardian mainib vaid Costello kaasat Anna Pattersoni, kes on Cuili president. Uus mootor kogus aprillis 25 miljoni euro jagu investeeringuid. Costello räägib, et on loonud tehnoloogia, mis võimaldab indekseerida veebilehekülgi kiiremini ja odavamalt kui Google suudab. "Search 121,617,892,992 web pages", teatab Cuili esilehekülg praegu.
Mitmed allikad tsiteerivad Reutersi vahendusel tuntud otsimootoriturundajat Dan Sullivani (Search Engine Land), kes märgib Google’i nõrkustena ära erapoolikuse, ehk niigi populaarsete lehekülgede ja üksikute küsitavate autoriteetide (Wikipedia) soosimise. Lisaks püüab Google teha liiga paljut korraga, mis võibki anda šansi uutele tulijatele, kes keskenduvad otsingule ja ainult otsingule.

28.07.2008 kell 17:40
Uus otsingumootor Cuil – esimene tõsine konkurent Google’ile?…
Uus otsingumootor Cuil on täna kuum uudis ning mitmed ütlevad, et see võib olla esimene arvestatav võistleja Google‘ile. Cuil väidab juba praegu haldavat maailma suurimat veebilehtede indeksit….
28.07.2008 kell 18:26
Väike võrdlus ütleb kõik:
http://www.google.ee/search?hl=et&q=estonia&lr=
VS.
http://www.cuil.com/search?q=estonia&sl=long
28.07.2008 kell 20:14
Minu testiotsing andis küll hulga tulemusi aga nende järjestus oli Google’ga võrreldes risti-vastupidi ja mitte heas mõttes…
28.07.2008 kell 20:22
see on siis see va värdjas twiceler jah, üks kõige rohkem peavalu valmistanud otingurobot ever, päris mitmes enda hallatavas saidis selle ära blokeerinud ja see on selle roboti puhul üsna laialt levinud käitumine, nii et otsingu tulemused võivad seetõttu tugevalt kannatada
28.07.2008 kell 20:53
Sander, äkki täpsustad.
29.07.2008 kell 01:31
http://newsgroups.derkeiler.com/Archive/Alt/alt.internet.search-engines/2005-10/msg00444.html
http://www.skrenta.com/2008/04/cuill_is_banned_on_10000_sites.html
http://www.phpbb.com/community/viewtopic.php?f=1&t=550093
jne, internet on täis selliseid teemasi.. probleem peamiselt selles, et see robot ei arvesta üldse sellega, et võib tõsiselt segada veebiserverite tööd ja teiste kasutajate mugavust.. lihtsalt imeb end saidi külge ja vägistab serverit nii kuidas jõuab..
teine suurem probleem on see, et kuna meie süsteem saadab iga kasutajate poolt saavutatud vea kohta teate, siis twiceler genereerib ise kokku urle, mida tegelikult olemas ei ole.. see aga kuhjab üles tõsise vigade nimekirja.. yahoo slurp on küll üsna lähedale, kuid see vähemalt ei ürita serverit ära kõrvetada..
29.07.2008 kell 03:00
Tänud linkide eest. Vaat siis, kuidas. Mina polnud Cuilist ja robot Twicelerist enne praegust meedikära midagi kuulnud.
Tjah, eks mõningane agressiivsus interneti kroolimisel (Gunnari tõlge-sõnamäng crawl baasil) on mõistetav, kui vaja mõne kuuga kogu internet oma servudesse kopeerida.
Rich Skrenta iroonias on ehk ka terake tõtt, kui ta kirjutab, et ohtrate foorumite puudumine Cuili indeksist võib selle kvaliteedile isegi kasuks tulla
29.07.2008 kell 08:49
tegemist pole tegelikult mõne kuuga, oma statistikast, mis ulatub aasta taha on kenasti näha vähemalt ühte nende robotit, mis sama rumalalt on pidevalt kamminud meie foorumit..
miks rumalalt? kui google teeb 68500 hitti ja indekseerib 58300 lehte/faili, siis see võtab ~570MB andmeid, samas teisel kohal olev twiceler 9300 hiti ja 7300 lehe/faili indekseerimisel kasutab ~400MB anmdeid.. siinkohal jääb mul arusaamatuks, et mida krdit nende robot tirib ja miks on nende robot optimiseerimata
nende probleemiks tõenäoliselt saigi see, et kui twiceler oma rumalusi erinevatel veebidel tegema hakkas, siis nende koduleht ei pajatanud midagi tarka, et miks see robot peaks olema mu lehel hea ja mis on ta eesmärk, keegi ei teadnud.. ja nii suuri andmemahtusi lampi raisku lasta on kõigile neile kallis, kellel andmete liikumine on tasustatav..
http://www.theadminzone.com/forums/showthread.php?p=273710 - see foorum näitab, et nende robot on liikvel olnud juba üle kahe aasta ja alustas kohe alguses üsna agressiivselt..
29.07.2008 kell 14:41
Arusaadav. See on muidugi bläkk, kui robot on optimeerimata ja ei austa standardit (ei kuula sõna ja püüab salvestada ka lehekülgi, mis selgesõnaliselt talle keelatakse). Kui vihjad PR-ämbrile, siis jah, see võibki see peamine bläkk olla. Et algul ei olnud veebimeistritel infot, mis toimub ja võimalust suhelda roboti arendajatega. Näib, et praguseks on asi paranenud ja roboti kohta info kenasti üleval, ka IP-aadressid, kust va ämblikku oodata on: http://www.cuil.com/info/webmaster_info/ Seal Cuil mainib ka, et on kohanud liba-Twiceleri.
Rich Skrenta blogis on ka väga huvitav postitus pealkirjaga “Did Powerset outsource their crawl?”. Näib, et on olemas keegi page-store.com, kes müüb internetti. Lahe, osta täpselt nii suur tükk, kui sul vaja on. Cuil oleks võinud PR-ämbrit vältida ja samuti kroolimise sisse osta, ilmselt oleks ka hulka odavam.
Võibolla siiski nende imelised algoritmid vajavad custom robotit ja mingil salapärasel põhjusel on ka vaja iga lk 10 korda kopeerida
01.08.2008 kell 13:55
Cuil Stats - The Early Numbers
http://weblogs.hitwise.com/bill-tancer/2008/07/cuil_stats_the_early_numbers.html
#12 koht otsimootoritest ja #197 kõigi veebilehtede seas
30.12.2008 kell 23:46
Tundub, et mull l2ks l6hki.
http://www.techcrunch.com/2008/12/27/cuil-fail-traffic-nearly-hits-rock-bottom/