??? 53 Benutzer online ???

Einigen Themen kann man einfach nicht entgehen.
Falls Diskussionsbedarf besteht, dann hier!
Benutzeravatar
Alex
...
Beiträge: 12138
Registriert: 03.09.2004, 19:41
Wohnort: Nähe Kiel
Kontaktdaten:

Beitrag von Alex »

Slurb ist der Robot, der Yahoo bedient!

Er ist derzeit auf 16 Seiten von bei Leidenschaft Meerforelle gleichzeitig unterwegs.
Gruß & Petri ALEX

Diejenigen, die gerade darüber jammern,
dass nichts beißt, mögen dies bitte leise tun,
um nicht diejenigen zu stören, die gerade fangen.
Benutzeravatar
emka
...
Beiträge: 1212
Registriert: 28.02.2005, 15:49
Wohnort: mittelpunkt der welt!
Kontaktdaten:

Beitrag von emka »

oh mein gott...wir werden von robotern überwacht...ich habe es immer geahnt...ha, da ist wieder einer....aaaaaaargl...stirb slurp, harhar, schluß mit dates mit deinen roboterschlampen...

schnell alle raus hier...das forum kann jeden moment in die luft gehen...


c&df
mk
check1-2:

http://www.scale-magazine.com



"keine weltherrschaft ohne manisches lachen!"
Benutzeravatar
Fyggi
...
Beiträge: 590
Registriert: 02.03.2005, 18:51

Beitrag von Fyggi »

Ähhmmm Alex,

für Leute wie mich vielleicht nur mal kurz:

WAS MACHT DER :q:


Fragt Mark :wink:
Benutzeravatar
Tante Torge
Lehrling von Tjalf
...
Beiträge: 1552
Registriert: 04.11.2006, 04:38
Wohnort: Rieseby

Beitrag von Tante Torge »

Hi Mark,
Yahoo! Slurp ist der Web-Indexierungs-Robot von Yahoo! Der Yahoo! Slurp Crawler sammelt Dokumente aus dem Internet um einen durchsuchbaren Index für die Yahoo! Suche aufzubauen. Diese Dokumente werden gecrawlt, wenn andere Dokumente im Internet darauf verlinken.
Während des Crawling beachtet Yahoo! Slurp den robots.txt Standard, damit nur solche Seiten gecrawlt und indexiert werden, die deren Betreiber als Ergebnisse in der Yahoo! Suche sehen möchten. Die URL eines für den Yahoo! Slurp ausgeschlossenen Dokuments kann aber unter Umständen dennoch über die Yahoo! Suche gefunden werden, wenn diese über andere öffentlich zugängliche Web-Dokumente verlinkt ist.

Ich hätte es so formuliert:

Der durchsucht die Seiten, damit du über Yahoo das finden kannst was er gefunden hat.

Oder Cheffe?
"...und wenn du die Auflaufbremse an der Zweiendrigen Einhand nicht exakt auf 37Nm eingestellt hast, dann kann son 60er Umsteiger dir schonmal den Tag versauen...."
Benutzeravatar
Alex
...
Beiträge: 12138
Registriert: 03.09.2004, 19:41
Wohnort: Nähe Kiel
Kontaktdaten:

Beitrag von Alex »

O.K. - da Mark so nett fragt und ich wohl vergessen hatte, daß sich natürlich die meisten noch nie mit dieser Thematik auseinandergesetzt haben nochmal für den Laien.

Suchmaschinen müssen ja irgendwo eine Liste mit allen Seiten des www haben. Diese Liste muß erstellt werden. Da dies natürlich unendlich lange dauern würde das gesamte Internet von den Angestellten von Google, Fireball, Altavista, ...... und wie sie nicht alle heißen durchsuchen zu lassen, haben die Betreiber der Suchmaschinen dieses Auflisten aller Webseiten automatisiert.

Sie benutzen einfach gesprochen einen Roboter (Bots, Spider, Crawler genannt) , der natürlich keine Blechbüchse ist, die vor einem Rechner sitzt, sondern ein kleines Softwarepaket, welches selbstständig durch das Internet surft und sich dabei merkt, was er so gefunden hat. Dabei merkt er sich nur wesentliche Teile, wie z.B. die Überschrift, die URL und ein paar Textteile einer jeden Seite und darüber hinaus legt er fest, mit welchen Suchwörtern oder Suchwortkombinationen eine jeweilige Seite erreichbar sein sollte, in dem er einem ganz bestimmten Indexierungsalgorithmus folgt.

Wenn das Menschen machen müßten, dann hätten die eine Menge zu tun und der Inhalt einer Suchmaschine würde unbezahlbar.

Diese Software läuft aber nicht nur einmal in einem Rechenzentrum, sondern hunderte Male. Man kann sich das vorstellen, als wenn man auf seinem Rechner 100 Browserfenster offen hat. So kann man gleichzeitig auf verschiedenen Seiten surfen. Einziger Unterschied ist, daß die Robots meist mit verschiedenen IPs auf ein und dieselbe Seite zugreifen. Warum das so ist, ist unwichtig - für uns jedenfalls.

Wenn dort also steht: Slurp(15) , dann heißt das, daß in diesem Moment 15 Robots mit dem Namen Slurp auf 15 unterschiedlichen Seiten von LM herumsuchen und die Inhalte lesen.

Wenn da nur steht Robot(1), dann ist dieser Bot unbekannt und wühlt dort höchstwahrscheinlich aus niederen Beweggründen auf der Seite herum.

Es gibts natürlich eine Menge Robots und hier mal eine Liste der bekanntesten:

"antibot", "appie", "architext", "bjaaland", "digout4u", "echo", "fast-webcrawler", "ferret", "googlebot", "gulliver", "harvest", "htdig", "ia_archiver", "jeeves", "jennybot", "linkwalker", "lycos", "mercator", "moget", "muscatferret", "myweb", "netcraft", "nomad", "petersnews", "scooter", "slurp", "unlost_web_crawler", "voila", "voyager", "webbase", "weblayers", "wget", "wisenutbot", "acme.spider", "ahoythehomepagefinder", "alkaline", "arachnophilia", "aretha", "ariadne", "arks", "aspider", "atn.txt", "atomz", "auresys", "backrub", "bigbrother", "blackwidow", "blindekuh", "bloodhound", "brightnet", "bspider", "cactvschemistryspider", "cassandra", "cgireader", "checkbot", "churl", "cmc", "collective", "combine", "conceptbot", "coolbot", "core", "cosmos", "cruiser", "cusco", "cyberspyder", "deweb", "dienstspider", "digger", "diibot", "directhit", "dnabot", "download_express", "dragonbot", "dwcp", "e-collector", "ebiness", "eit", "elfinbot", "emacs", "emcspider", "esther","evliyacelebi", "nzexplorer", "fdse", "felix", "fetchrover", "fido", "finnish", "fireball", "fouineur", "francoroute", "freecrawl", "funnelweb", "gama", "gazz", "gcreep", "getbot", "geturl", "golem", "grapnel", "griffon", "gromit", "hambot", "havindex", "hometown", "htmlgobble", "hyperdecontextualizer", "iajabot", "ibm", "iconoclast", "ilse", "imagelock", "incywincy", "informant", "infoseek", "infoseeksidewinder", "infospider", "inspectorwww", "intelliagent", "irobot", "iron33", "israelisearch", "javabee", "jbot", "jcrawler", "jobo", "jobot", "joebot", "jubii", "jumpstation", "katipo", "kdd", "kilroy", "ko_yappo_robot", "labelgrabber.txt", "larbin", "legs", "linkidator", "linkscan", "lockon", "logo_gif", "macworm", "magpie", "marvin", "mattie", "mediafox", "merzscope", "meshexplorer", "mindcrawler", "momspider", "monster", "motor", "mwdsearch", "netcarta", "netmechanic", "netscoop", "newscan-online", "nhse", "northstar", "occam", "octopus", "openfind", "orb_search", "packrat", "pageboy", "parasite", "patric", "pegasus", "perignator", "perlcrawler", "phantom", "piltdownman", "pimptrain", "pioneer", "pitkow", "pjspider", "pka", "plumtreewebaccessor", "poppi", "portalb", "puu", "python", "raven", "rbse", "resumerobot", "rhcs", "roadrunner", "robbie", "robi", "robofox", "robozilla", "roverbot", "rules", "safetynetrobot", "search_au", "searchprocess", "senrigan", "sgscout", "shaggy", "shaihulud", "sift", "simbot", "site-valet", "sitegrabber", "sitetech", "slcrawler", "smartspider", "snooper", "solbot", "spanner", "speedy", "spider_monkey", "spiderbot", "spiderline", "spiderman", "spiderview", "spry", "ssearcher", "suke", "suntek", "sven", "tach_bw", "tarantula", "tarspider", "techbot", "templeton", "teoma_agent1", "titin", "titan", "tkwww", "tlspider", "ucsd", "udmsearch", "urlck", "valkyrie", "victoria", "visionsearch", "vwbot", "w3index", "w3m2", "wallpaper", "wanderer", "wapspider", "webbandit", "webcatcher", "webcopy", "webfetcher", "webfoot", "weblinker", "webmirror", "webmoose", "webquest", "webreader", "webreaper", "websnarf", "webspider", "webvac", "webwalk", "webwalker", "webwatch", "whatuseek", "whowhere", "wired-digital", "wmir", "wolp", "wombat", "worm", "wwwc", "wz101", "xget", "awbot", "bobby", "boris", "bumblebee", "cscrawler", "daviesbot", "ezresult", "gigabot", "gnodspider", "internetseer", "justview", "linkbot", "linkchecker", "nederland.zoek", "perman", "pompos", "pooodle", "redalert", "shoutcast", "slysearch", "ultraseek", "webcompass", "yandex", "robot", "bot", "psbot", "crawl", "msnbot"

Neben den guten Bots, gibts auch böse Bots, die zu gemeinen Attacken eingesetzt werden.

Da gibt es sogenannte Spambots (I). Mal angenommen es wäre möglich ohne Registrierung Beiträge zu schreiben, dann hätten wir das Problem, daß wir mindestens 600 Viagraangebote, Penisverlängerungen und Aktienkursprognosen pro Tag in unserem Forum finden würden. Diese Bots sind darauf getrimmt solche Plattformen mit Werbung vollzumüllen. Dabei gibts es derweil für jede Forensoftware, Galerie, E-Mailformular, Gästebuch, ...... irgendwelche Bots, die nur Müll schreiben.
Das klingt schon gemein und unglaublich, aber auch wir hatten hier das Problem, daß sich die Bots sogar im LMF automatisch registriert, den Sicherheitscode erkannt und sogar die E-Mailbestätigung getätigt haben, um dann für Pornos Werbung zu machen. Dank einer individuellen Anpassung meinerseits ist das nun allerdings nicht mehr möglich.

Weiter gibt es Spambots (II). Diese durchsuchen da gesamte Internet nach e-mail-Adressen und listen sie auf. Wenn sie hunderttausende zusammen haben, dann bieten sie den Inhabern der E-Mail-Adressen alle möglichen Sachen an. Ich bekomme z.B. täglich 500 E-Mails mit Angeboten für Penisverlängerungen, Viagra, (dabei kennen die mich gar nicht ;) )..... usw. und nette Computerviren werden ebenfalls regelmäßig angehängt!

Dann gibt es böse Bots, die von verschiedenen Stellen eine Seite belauern, sich dann zu einem bestimmten Zeitpunkt verabreden und dann diesen Server mit Anfragen überfluten, bis das System zusammenbricht. Man kann sich das vorstellen, wie zu Silvester im Handynetz. Eigentlich funzt es, aber wenn zuviele Anfragen reinkommen - schmiert die ganze Geschichte ab. So starten die Bots eine unvorstellbare Anzahl von Anfragen jede Sekunde, bis der Server alle Viere von sich Streckt und eine Fehlermeldung ausgibt. Daß der Server paltt ist, ist das eine Problem. Desweiteren können aber beim Absturz Sicherheitslücken entstehen. Gut genutzt schaffen es Hacker dann die Systeme zu knacken und z.B. Daten zu vernichten oder ganze Homepages zu löschen. Hier auch schon passiert bevor ich die großen Sicherheitstore davorgenagelt habe.

Es gibt halt eine Reihe weitere Bots:
- Wissenschaftliche Bots, die z.B. Suchmaschinenergebnisse vergleichen
- Angeblich Bots zur Strafverfolgung, die nach bestimmten Begriffen suchen, um verfassungsrechtlich bedenkliche und feindliche Diskussionen aufzufinden
- Bots, die nach urheberrechtlich geschützten Worten oder Textpassagen suchen, damit Webseiteninhaber kostenpflichtig abgemahnt werden können.

Natürlich nur eine einfache Erklärung, aber hoffentlich verständlicher als die vorherige!
Gruß & Petri ALEX

Diejenigen, die gerade darüber jammern,
dass nichts beißt, mögen dies bitte leise tun,
um nicht diejenigen zu stören, die gerade fangen.
Benutzeravatar
Fyggi
...
Beiträge: 590
Registriert: 02.03.2005, 18:51

Beitrag von Fyggi »

Hai Alex,

puuhh, danke für diese umfangreiche Auskunft :+++: Ähhmm, die war einfach genug!!
Ne, Alex, vergessen hast das, denke ich nicht, wir sind ja schließlich in einem Meerforellenfischerforum und nicht in einem Forum: das A-B-C des Internets.

Aber interessant ist es trotzdem, da wir uns ja im WWW bewegen.

Man lernt eben nie aus 8)

Mark :wink:
Antworten