Vorige week vrijdag lanceerde ik de DATACOLLECT SERVICE. Voor mij gaat het hierbij vooral om het uittesten van de zoekrobot, zo’n demo is daarvoor uitstekend geschikt, en het verbeteren ervan. Deze zoekrobot wordt namelijk ook gebruikt door SEO Validator en ondanks dat er al vele tienduizenden webpagina's mee zijn ingelezen, is een update zo af en toe toch op zijn plaats.
Nou kan ik natuurlijk een heel epistel schrijven over alle veranderingen (het zijn 4 puntjes op de i, maar toch), maar ik denk niet dat de meeste zin hebben om dat allemaal te lezen.
Dus.... doe de DEMO en onderga de verandering(en).
Voor mij is het hoofddoel van DATACOLLECT, naast een extra vorm van business, server gebruik en een technische uitdaging, vooral het verbeteren van de zoekrobot en aanverwante scripts. Tot slot verwacht ik niet dat het (mij in ieder geval) ooit zal lukken om 100% van alle geencrypte mailadressen te vinden op een webpagina, iets wat ook niet mijn ambitie is. Maar dat het lukt bij een aantal oplossingen is leuk en geeft voldoening.
Google is overigens erg goed geworden als je kijkt naar “javascript interpreter” gebruik. Ik begrijp hun redenatie, maar persoonlijk vind ik dat Google daarin te ver gaat. Immers daarmee wordt toch bevestigd: Staat het niet leesbaar op website A, dan wel op website B en dan vind de datacollect zoekrobot het alsnog.
Reacties
Ik kan mij niet voorstellen dat een 'normaal' bedrijf marketing efforts wil loslaten op gegevens die op deze manier zijn verzameld.
Wij als kleine hosting partij blokkeren sinds jaar en dag elke spammer (op bedrijfs URL) die ongewenst berichten naar onze gebruikers stuurt.
Hoe we dat kunnen zien? Door het simpele feit dat dergelijke emails altijd zijn gericht aan de algemene (voornamelijk info@) adressen. We zien deze zeer snel binnenkomen, er slippen er misschien een paar honderd doorheen maar de block zorgt ervoor dat dit er geen tienduizenden worden. Deze bedrijven komen dus bij ons op de blacklist en kunnen niet meer mailen met onze klanten. Op de lange termijn is dat dus een grote gemist kans!
Ik ga er vanuit dat wij niet de enige zijn die deze methode hanteren.
Om het verzamelen van gegevens tegen te gaan is elke robot te blokkeren met de robots.txt (www.robotstxt.org, zie http://www.datacollectservice.com/index.php?id=24 voor de robot id). Ik neem aan dat DCS zich hieraan houdt.
Na 1 oktober zal eea nog lastiger worden.
Beste anonieme spam:
https://www.spamklacht.nl/asp/overspam/watisspam.asp staat e.a. wat wel en niet mag en vooral tot wanneer.
Datacollect is denk ik een van de weinige sites die gewoon zegt wat het doet en je de mogelijkheid geeft dit te testen.
Via verschillende methodieken kan je zoekrobots uitsluiten, maar ook email kan je gewoon afschermen, terwijl het toch leesbaar blijft voor bezoekers (en Google zie eerdere post).
"E-mail harvesting is the process of obtaining lists of e-mail addresses using various methods for use in bulk e-mail or other purposes usually grouped as spam."
Wikipedia:
http://en.wikipedia.org/wiki/E-mail_address_harvesting
Ondanks de mooie woorden over "datasets" weet iedereen dat mensen die e-mailadressen verzamelen deze primair gebruiken voor het ongevraagd verzenden van e-mail.
Immers: als ik een klant heb weet ik zijn e-mailadres en mag ik hem een bericht zenden.
Dan heb je jouw "dienst" ook niet nodig.
Als zijn e-mailadres niet meer klopt kan ik heb even bellen: jongens, de e-mail komt onbestelbaar retour, wat is je nieuwe e-mailadres?
Afgezien hiervan jaag je kleine sites op kosten door de extra traffic en zullen met name sites bij goedkope hosters door de spider langzamer worden.
Spiders voor zoekmachines brengen extra traffic en helpen je site vindbaar te maken.
Jouw spider brengt alleen maar overlast.
spam | 17 jul 2009 11:48:45
Tja dat is een discussie die eeuwig durend is daar er verschillen zijn in wat het kan en oplevert. Kies dan ook het product dat het beste bij je past qua budget en tijdsbesteding. Zelf bouwen is ook een optie.
Zie niet helemaal de toegevoegde waarde van deze dienst. Je kan dit in mijn ogen eenvoudig zelf doen d.m.v. software zoals Web Content Extractor (zie: http://www.newprosoft.com/web-content-extractor.htm)
P_Veen | 17 jul 2009 10:13:34
Beste Luc,
In http://www.sproutstart.nl/2009/07/kennis-is-macht-data-geeft-kracht.html#more verwijst Radomir naar hetzelfde stuk. In dat stuk reageer ik hier ook inhoudelijk op. De tekst zoals ik het bedoeld heb is dat wanneer een bezoeker op een website komt hij moet inloggen om informatie te zien, terwijl google in zijn resultaten deze informatie WEL laat zien.
Voorbeeld:
http://www.linux-mag.com/id/744/
geeft een login
Via de cache van Google:
http://74.125.77.132/search?q=cache:BpThr_dfY50J:www.linux-mag.com/id/744+http://www.linux-mag.com/id/744/&cd=1&hl=nl&ct=clnk&gl=nl
Zie je het artikel.
In deze gevallen kan de ondernemer ons vragen om Google als robotgegevens te gebruiken. Iets wat ook al lang kan mbv gratis plugins van firefox.
In de praktijk lees je in die gevallen de betreffende google cache resultaten (duurt iets langer dan direct de website benaderen) in. Dan krijg je dezelfde informatie en hoef je niets te wijzigen.
Het inlezen wan webpagina gegevens welke volledig zijn afgeschermd dmv een inlog (dus ook zoekmachines kunnen het niet inlezen) dat wordt niet gedaan. Dat is "hacken".
Ik heb de betreffende tekst aangepast om verdere verwarring te voorkomen.
willem-peter perquin | 16 jul 2009 17:42:34
Dat is correct maar het is in elk geval een mogelijkheid om aan te geven dat je berichtgeving ongewenst vind. Je adresgegevens worden dan ook niet verder verspreid door de KvK.
Het gaat me niet zozeer om het juridische aspect maar meer dat je als ondernemer je verantwoordelijkheid neemt als je een dienst aan gaat bieden. Je onderneemt op een gevoelig gebied namelijk. Als ik dan dit lees vind ik dat je dienst daar niet zorgvuldig mee overkomt:
"Wanneer uw website alleen zoekrobots van zoekmachines als Google, Yahoo of Blinq toestaat kan de datacollect service robot uw informatie niet onttrekken.
Echter DATACOLLECT SERVICE kan, op verzoek van de klant, andere zoekrobot informatie gebruiken om alsnog de juiste informatie van uw website te kunnen onttrekken. Hoe ver we daarin gaan wordt bepaald door de klant, die hiervoor ook een specifiek contract dient te onderteken om mogelijke juridische consequenties uit te sluiten."
Bron: http://www.datacollectservice.com/index.php?id=24
Als de klant maar wat tekent zodat wij niet de sjaak zijn doen we alles. Dat komt op mij en ik denk velen met mij niet over als goed ondernemerschap.
Dat zou kunnen, maar dat betekend nog niet dat je niets ontvangt, daar je gegevens vaak ook in andere databases staan. Het opt-out principe dient dan ook aangeboden te worden door de partij die de betreffende email verstuurd. Dit is primair de verantwoordelijkheid van de mailer. Nu zie je vaak dat er iets staat in de strekking van "niet reageren = blijven ontvangen".
Na 1 oktober wordt het "gevoeliger". Dan gaat het opt-in principe gelden.
willem-peter perquin | 16 jul 2009 16:59:03
Essentieel verschil is dat de KvK bestanden een mogelijkheid tot opt-out hebben?
@spam:
- datacollect verzameld mailadressen
- verzamelde emails kunnen niet zelfstandig mails versturen
- datacollect verstuurd zelf geen emails en bied die faciliteit ook niet (zie website)
- klanten van datacollect versturen emails naar door datacollect verzamelde mailadressen. maar dat is het zelfde als het gebruiken van de datasets van de KVK of cendris voor het versturen van mailings.
willem-peter perquin | 16 jul 2009 12:01:53
Wanneer je spam ontvangt van adressen verzameld door datacollect kun je dit aanmelden bij:
https://www.spamklacht.nl/asp/
spam | 16 jul 2009 11:43:59
Plaats een reactie