Vorige keer heb ik een bericht gepost over een stukje knowhow binnen SEO Validator. Een paar dagen daarvoor ben ik gebeld door een klant die geïnteresseerd was in de inzet van die software en vertaalmogelijkheden bij het bezoeken van websites. Hij wilde graag de contactgegevens hebben van alle profielen op die website en zelf hadden ze niet de kennis in huis om dit te doen. De reden die hij aangaf was dat de datasets van bijvoorbeeld organisaties met veel contactgegevens, vaak niet up to date zijn. Terwijl website gegevens dit meestal wel zijn.
Na een paar dagen van hard nadenken over de aanpak, de software tool mogelijkheden en wat testjes ben ik flink gaan programmeren en heb op basis van zijn input een nieuwe service ontwikkeld:
DATACOLLECT SERVICE
DATACOLLECT SERVICE bezoekt websites, directories of gebruikt zoekresultaten van oa YaHoo en Google om onderwerp gerelateerde websites te vinden. Leest die websites in en filtert de informatie eruit die de klant hebben wilt. Dat kunnen email adressen zijn, maar ook contact gegevens (naam, adres, telnr etc).
Op de website zelf heb ik ook de mogelijkheid gemaakt om een webpagina te testen op de vindbaarheid van email adressen (datacollect email test). Doel daarvan is mensen bewust te maken van het feit dat het mogelijk is om gegevens uit een webpagina te filteren.
Nadat ik de website life zette ook meteen op Linkedin onder de noemer van “wat doe ik zoal” de service geplaatst. Bijzonder was dat ik vrij snel daarna een offerte kon uitbrengen voor een bedrijf die graag beschermd wilt worden tegen de vindbaarheid van email adressen op hun website en hoe ze dat het beste kunnen doen (meerder oplossingen mogelijk). Zo zie je maar weer: "Elk voordeel hep z'n nadeel". (Johan Cruijf)
Gepost door Willem-Peter Perquin
(SEO Validator)
Reacties
Beste Radomir,
Uiteraard mag je bepaalde robots weigeren. Dat is iets anders dan bezoekers andere informatie (meestal een login formulier) voor schotelen (dat is wat ik bedoel met m'n tekst). Wat je ziet bij sommige sites is dat hun zoekresultaten er anders uitzien dan de betreffende webpagina. DAT is iets wat niet mag en wat wordt gemeld. Meestal gebeurt dat door een zoekmachine als Google wel toegang te geven, maar de gewone website bezoeker niet. Die wordt dan geacht lid te worden en in te loggen.
"officieel" mag je geen uitzonderingen maken voor zoekmachines en wat je bezoekers zien.
www.linux-mag.com is een gerenomeerd voorbeeld hierin. Firefox heeft een extensie waarmee je kunt doen alsof je een googlebot (of een andere zoekmachine) bent. Werkt overigens niet altijd, omdat slimmerds ook een reverse DNS lookup doen op het IP adres.
Voorbeeld:
http://www.linux-mag.com/id/744/
geeft een login
Via de cache van Google:
http://74.125.77.132/search?q=cache:BpThr_dfY50J:www.linux-mag.com/id/744+http://www.linux-mag.com/id/744/&cd=1&hl=nl&ct=clnk&gl=nl
Zie je het artikel.
Maandag of dinsdag wordt de zoekrobot geupdate. Dan doet hij het weer iets beter.
Van de site datacollectservice.com :
"DATACOLLECT SERVICE bezoekt uw website met haar eigen datacollect zoekrobot beschrijving. Wanneer uw website alleen zoekrobots van zoekmachines als Google, Yahoo of Blinq toestaat kan de zoekrobot deze informatie niet analyseren. DATACOLLECT SERVICE kan, op verzoek van de klant, andere zoekrobot informatie gebruiken om alsnog de juiste informatie te kunnen verzamelen.
Let wel dat websites die deze manier van selectieve toegang toepassen, standaard door ons worden aangemeld bij de verschillende zoekmachines ivm ongeoorloofde SEO praktijken."
Die laatste zin, wordt daar nou mee bedoelt dat je sites er bij lapt bij de zoekmachines omdat je met je eigen bot geweigerd wordt ? Ik begrijp die zin niet helemaal....
Is toegang weigeren aan bepaalde bots ongeoorloofde seo of juist goede seo omdat je de site selectief laat opnemen door goede zoekmachines en niet door al die spam-directories ?
Auteursrecht en internet is een fors grijs gebied. Immers webpagina's in de cache van Google mag dat? webpagina's gezien via een proxyserver mag dat? Mag Google een stukje van jouw website tekst publiceren in haar zoekresultaten. Hoe zit het met screenshots van een webpagina welke je publiceert off- dan wel online? Officieel zijn dat allemaal kopieën van het origineel.
Daarnaast zit je met de oorspronkelijkheid van data. Jouw contactgegevens staat op vele websites en in vele databanken. In hoeverre is het op die ene databank dan nog oorspronkelijk? De databank wet is er ook vaag over in sommige gevallen.
http://www.iusmentis.com/databanken/nl/spin-offs/
Zolang ik me houdt aan de voorwaarden van de databank leveranciers is er weinig aan de hand, maar ben er wel alert op.
Overigens kan je de eigenaar van de internetpagina juridisch succesvoller aanvechten ivm schending van de privacy:
http://www.nos.nl/nosjournaal/artikelen/2007/10/16/161007_internetgegevens.html
Wat ik persoonlijk niet vind kunnen is de volgende situatie:
(moet nog onderzoeken of het echt zo is, maar nochthans klopt het wel)
Google toont beschermde informatie, waarvan de gebruiker duidelijk zijn best heeft gedaan dat te voorkomen.
http://baxil.livejournal.com/266909.html
Dat vind ik persoonlijk niet door de beugel kunnen.
willem-peter perquin | 11 jul 2009 13:13:25
Je bevindt je toch op glad ijs door te stellen dat databanken gekopieerd mogen worden als er geen login in is. De bescherming van databanken en gegevens is het auteursrecht, niet de login. Zeker als een uitgever in haar gebruiksvoorwaarden uitdrukkelijk stelt dat kopieren van de database of het bij herhaling systematisch kopieren van delen uit de database verboden is, kan dit wellicht technisch mogelijk zijn, maar je gaat juridisch gezien nog steeds voor de bijl. Althans, wel als ik uitgever zou zijn.
Sezanne | 11 jul 2009 10:04:15
Nee hoor Sezanne,
De meeste databanken stellen limieten aan het aantal downloads dat je mag doen in een bepaalde periode dan wel in het totaal. Zolang je je aan hun voorwaarden houdt is er niets aan de hand. Dat is geen diefstal dat is gebruik maken van de kaders die er worden gesteld. Juridisch wordt dat allemaal gecontroleerd, voordat gegevens van een databank worden verzameld. Dat een databank het leuk niet vind dat je de grenzen van hun voorwaarden opzoekt is begrijpelijk, maar daarmee is datacollect niet verwerpelijk en is het al zeker geen diefstal. Diefstal is het wanneer je bewust een site hacked om je toegang te verlenen tot de informatie. DAT gebeurt niet.
Het verzamelen van gegevens van websites is juridisch ook in orde (doet Google dagelijks), zolang je de gegevens maar niet zelf gaat publiceren (zie arresten mbt funda en andere websites als www.kranten.com). Dat bepaalde sites niet blij zijn met dit soort activiteiten is begrijpelijk. Echter dan dienen ze hun informatie beter te beschermen.
Je wilt niet weten hoe gemakkelijk bijvoorbeeld verenigingen complete lijsten met leden contactgegevens netjes in xls sheets, pdf-jes op het internet plaatsen, zonder enige vorm van bescherming (geen inlog etc).
Een zoekopdracht:
http://www.google.nl/search?hl=nl&q=ledenlijst+vereniging+email&btnG=Zoeken&meta=
levert al leuke sets aan gegevens op.Met DATACOLLECT Service geeft de klant gewoon een set aan zoekwoord combinaties op, waarna de zoekrobot gaat verzamelen. Erg effectief, efficient en voor de prijs bouw je het niet zelf.
willem-peter perquin | 11 jul 2009 07:50:58
je faciliteert nu dus diefstal? als je geregistreerden op een webbsite wilt bereiken moet je opdrachtgever gewoon adverteren ipv jou te vragen een applicatie te ontwikkelen die het databankrecht schend. Juridisch volledig onhoudbaar
Sezanne | 10 jul 2009 23:01:33
Plaats een reactie