Webcrawler:

Webcrawler unterscheiden

Welche Webcrawler gibt es nach deren Betreiber?

• Suchmaschinenbetreiber
• Privater Webcrawler-Betreiber

Welche Webcrawler gibt es nach deren Namen?

• ABCdatos BotLink
• Acme.Spider
• Ahoy! The Homepage Finder
• Alkaline
• ananzi
• Anthill
• Arachnophilia
• Arale
• Araneo
• AraybOt
• ArchitextSpider
• Aretha
• ARIADNE
• arks
• AskJeeves
• ASpider (Associative Spider)
• ATN Worldwide
• Atomz.com Search Robot
• AURESYS
• BackRub
• Bay Spider
• Big Brother
• bingbot
• Bjaaland
• BlackWidow
• Die Blinde Kuh
• Bloodhound
• Borg-Bot
• BoxSeaBot
• bright.net caching robot
• BSpider
• CACTVS Chemistry Spider
• Calif
• Cassandra
• Checkbot
• ChristCrawler.com
• churl
• cIeNcIaFiCcIoN.nEt
• CMC/0.01
• Collective
• Combine System
• ComputingSite Robi/1.0
• Conceptbot
• ConfuzzledBot
• CoolBot
• Cusco
• CyberSpyder Link Test
• CydralSpider
• Desert Realm Spider
• DeWeb(c) Katalog/Index
• DienstSpider
• Digger
• Digimarc MarcSpider
• Digimarc Marcspider/CGI
• Digital Integrity Robot
• Direct Hit Grabber
• DNAbot
• DownLoad Express
• DragonBot
• DWCP (Dridus' Web Cataloging Project)
• e-collector
• EbiNess
• EIT Link Verifier Robot
• ELFINBOT
• Emacs-w3 Search Engine
• ananzi
• esculapio
• Esther
• Evliya Celebi
• FastCrawler
• Fluid Dynamics Search Engine robot
• Felix IDE
• FetchRover
• fido
• Fish search
• FocusedCrawler
• Fouineur
• Freecrawl
• FunnelWeb
• gammaSpider
• gazz
• GCreep
• GetBot
• GetterroboPlus Puu
• GetURL
• Golem
• Googlebot
• Googlebot-Image
• Googlebot-Mobile
• Grapnel
• Griffon
• Gromit
• Gulper Bot
• Hämähäkki
• HamBot
• Harvest
• havIndex
• HKU WWW Octopus
• HI (HTML Index) Search
• Hometown Spider Pro
• ht://Dig
• html_analyzer
• HTMLgobble
• Hyper-Decontextualizer
• iajaBot
• IBM_Planetwide
• Ingrid
• image.kapsi.net
• Imagelock
• IncyWincy
• Informant
• InfoSeek Robot 1.0
• Infoseek Sidewinder
• InfoSpiders
• Inktomi Slurp
• Inspector Web
• IntelliAgent
• Internet Cruiser Robot
• Internet Shinchakubin
• I, Robot
• Iron33
• Israeli-search
• JavaBee
• JBot Java Web Robot
• JCrawler
• Jeeves
• JoBo Java Web Robot
• Jobot
• JoeBot
• The Jubii Indexing Robot
• JumpStation
• Katipo
• KDD-Explorer
• Kilroy
• KIT-Fireball
• KO_Yappo_Robot
• LabelGrabber
• larbin
• legs
• Link Validator
• LinkScan
• LinkWalker
• Lockon
• logo.gif Crawler
• Lycos
• Mac WWWWorm
• Magpie
• marvin/infoseek
• Mattie
• MediaFox
• MerzScope
• MindCrawler
• mnoGoSearch search engine software
• moget
• MOMspider
• Monster
• Motor
• MSNBot
• Muncher
• Muninn
• Muscat Ferret
• Mwd.Searche
• NDSpider
• NEC-MeshExplorer
• Nederland.zoek
• NetCarta WebMap Engine
• NetMechanic
• NetScoop
• newscan-online
• NHSE Web Forager
• Nomad
• Northern Light Gulliver
• nzexplorer
• ObjectsSearch
• Occam
• OntoSpider
• Openfind data gatherer
• Open Text Index Robot
• Orb Search
• Pack Rat
• PageBoy
• ParaSite
• Patric
• pegasus
• PerlCrawler 1.0
• Phantom
• PhpDig
• PiltdownMan
• Pimptrain.com's robot
• Pioneer
• Popular Iconoclast
• Portal Juice Spider
• PGP Key Agent
• PlumtreeWebAccessor
• Poppi
• PortalB Spider
• psbot
• Raven Search
• RBSE Spider
• Resume Robot
• RoadHouse Crawling System
• RixBot
• Road Runner: The ImageScape Robot
• Robbie the Robot
• RoboCrawl Spider
• RoboFox
• Robot Francoroute
• Robozilla
• Roverbot
• RuLeS
• SafetyNet Robot
• Scooter
• Sleek
• Search.Aus-AU.COM
• SearchProcess
• Senrigan
• SG-Scout
• ShagSeeker
• Shai'Hulud
• Sift
• Simmany Robot Ver1.0
• Site Valet
• SiteTech-Rover
• Skymob.com
• SLCrawler
• Smart Spider
• Snooper
• Solbot
• Spanner
• Speedy Spider
• spider_monkey
• SpiderBot
• Spiderline Crawler
• SpiderMan
• SpiderView(tm)
• Spry Wizard Robot
• Site Searcher
• Suke
• suntek search engine
• Sven
• Sygol
• TACH Black Widow
• Tarantula
• tarspider
• Tcl W3 Robot
• TechBOT
• Templeton
• TeomaTechnologies
• The NorthStar Robot
• The NWI Robot
• The Peregrinator
• The Python Robot
• The TkWWW Robot
• The Webfoot Robot
• The Web Moose
• The Web Wombat
• The World Wide Web Worm
• TITAN
• TitIn
• TLSpider
• UCSD Crawl
• UdmSearch
• UptimeBot
• URL Check
• URL Spider Pro
• Valkyrie
• Verticrawl
• Victoria
• vision-search
• void-bot
• Voyager
• VWbot
• W3M2
• w3mir
• Walhello appie
• WallPaper (alias crawlpaper)
• the World Wide Web Wanderer
• w@pSpider by wap4.com
• WebBandit Web Spider
• WebCatcher
• WebCopy
• Web Core / Roots
• webfetcher
• Webinator
• weblayers
• WebLinker
• Weblog Monitor
• WebMirror
• WebQuest
• WebReaper
• webs
• Websnarf
• WebSpider
• WebStolperer
• WebVac
• webwalk
• WebWalker
• WebWatch
• WebZinger
• Wget
• whatUseek Winona
• WhoWhere Robot
• Wild Ferret Web Hopper
• Wired Digital
• WWWC Ver 0.2.5
• XGET
• XYLEME Robot
• Yahoo! Crawler

•

Liste von Webcrawlern

Welche Webcrawler gibt es nach deren Aufgabe?

• Webcrawler, um Inhalte von Webseiten nach Texten zu durchsuchen.
• Webcrawler, um Inhalte von Webseiten nach Bildern zu durchsuchen.
• Harvester, um Inhalte von Webseiten nach E-Mail-Adressen zu durchsuchen.

Welche Webcrawler gibt es nach deren Nutzen?

• Es gibt nützliche Webcrawler, die ja dabei helfen, dass man in deren SUchmaschine gefunden wird.
• Es gibt schlechte (bad) Webcrawler, die sich nicht an die robots-Dateien halten und eine Webseite (nach E-Mail-Adressen) ausspionieren wollen.

A-Z

Webcrawler Definition

Was ist ein Webcrawler?

• Der Webcrawler ist ein Computerprogramm.

A-Z

Webcrawler benennen

Welche Namen gibt es für Webcrawler?

• Robot, Spider, Searchbot, Bot, Suchmaschinenrobot, Suchroboter

Was heisst Webcrawler auf Englisch?

•

Was heisst Webcrawler auf Französisch?

•

Was heisst Webcrawler auf Spanisch?

•

Was heisst Webcrawler auf Niederländisch?

•

A-Z

Wir arbeiten dran: Mobile

Praxislexikon für unterwegs.

Webcrawler ausschliessen

Wie kann man einen Webcrawler von einer Suche per Robots-Datei ausschliessen?

• Webcrawler durchsuchen Webseitenverzeichnisse nach deren Inhalt.
• Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
• Was sie aber sehen können, kann man mit einer Robots-Datei festlegen.
• So kann man bestimmte Webcrawler ausschliessen.
• Man kann auch bestimmte Teile (Verzeichnisse oder Dateien) von der Suche ausschliessen.

Wie kann man alle Webcrawler von einer Suche per Metadaten ausschliessen?

• Webcrawler durchsuchen Webseiten nach deren Inhalt.
• Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
• Man bearbeitet die Metadaten im Quelltext.
• Das Ziel ist einen Webcrawler daran zu hindern die Seite zu durchsuchen. Also schreibt man folgende Zeile als Meta-Tag (Meta-Befehl):
• <meta name= "robots" content = "noindex,nofollow" >

Wie kann man einen Webcrawler von einer Suche per Metadaten ausschliessen?

• Webcrawler durchsuchen Webseiten nach deren Inhalt.
• Man bearbeitet die Metadaten im Quelltext.
• Wenn man nicht will, dass Google die Seite durchsucht, schreibt man folgende Zeile als Meta-Tag (Meta-Befehl):
• <meta name="googlebot" content="noindex">

Wie kann man einen Webcrawler von einer Suche per htaccess ausschliessen?

• Webcrawler durchsuchen Webseiten nach deren Inhalt.
• Man bearbeitet die .htaccess-Datei.
• Man muss die Webcrawler einzeln identifieren, die man ausschliessen will.
• Welche Webcrawler überhaupt auf eine Webseite zugreifen, kann man in den Webserver-Logfiles sehen.
• In der .htaccess-Datei kann man die Webcrawler dann einzeln aufführen durch Nennung der Domain oder der IP-Adresse.

A-Z

Webcrawler auswählen

Wie kann man einen Webcrawler in einer robots-Datei auswählen?

• Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
• Wenn man einem bestimmten Webcrawler in einer robots-Datei eine Anweisung geben will, schreibt man folgendes in die Datei:
• User-agent: ausgewaehlterwebcrawler
• ausgewaehlterwebcrawler ersetzt man durch den Namen des Webcrawlers.

Wie kann man alle Webcrawler in einer robots-Datei auswählen?

• Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
• Wenn man alle Webcrawler in einer robots-Datei eine Anweisung geben will, schreibt man folgendes in die Datei:
• User-agent: *

A-Z

Webcrawler steuern

Wie kann man einen Webcrawler steuern?

• Jede Domain, aber auch jede SUbdomain muss einzeln behandelt werden.
• Mit einer Robots-Datei kann man Webcrawlern Anweisungen geben, was sie durchsuchen dürfen.
• Man kann in den Metadaten einer Datei Anweisungen für Webcrawler geben.

A-Z

Webcrawler überprüfen

Wie kann man einen Webcrawler auf Echtheit überprüfen?

• Man sucht sich im Log seines Servers eine IP-Adresse heraus, die man überprüfen will.
• Man macht ein reverse DNS lookup, wodurch man diese IP-Adresse mit seinem Computer verfolgen kann.
• Das Ergebnis gibt man wieder in das Suchfeld ein.
• Ist es die selbe IP-Adresse?
• Wenn ja, dann stimmt alles.

Wie kann man einen Webcrawler mit whois auf Echtheit überprüfen?

• Man sucht sich im Log seines Servers eine IP-Adresse heraus, die man überprüfen will.
• Man macht ein reverse DNS lookup, indem man diese IP-Adresse mit einer Suchmaske verfolgen kann.
•

HIER
• Man schaut sich dass Ergebnis an, ob dort eine Suchmaschine steht.
• Das Ergebnis gibt man wieder in den Suchkasten ein.
•

HIER
• Ist es die selbe IP-Adresse?
• Wenn ja, dann stimmt alles.

A-Z

Webcrawler verwenden

Wofür kann man einen Webcrawler verwenden?

• Webseite durchsuchen.

A-Z

Webcrawler Links

Welche weiteren Links gibt es zum Thema Webcrawler?

A-Z