Webcrawler unterscheiden
Welche Webcrawler gibt es nach deren Betreiber?
Suchmaschinenbetreiber
Privater Webcrawler-Betreiber
Welche Webcrawler gibt es nach deren Namen?
ABCdatos BotLink
Acme.Spider
Ahoy! The Homepage Finder
Alkaline
ananzi
Anthill
Arachnophilia
Arale
Araneo
AraybOt
ArchitextSpider
Aretha
ARIADNE
arks
AskJeeves
ASpider (Associative Spider)
ATN Worldwide
Atomz.com Search Robot
AURESYS
BackRub
Bay Spider
Big Brother
bingbot
Bjaaland
BlackWidow
Die Blinde Kuh
Bloodhound
Borg-Bot
BoxSeaBot
bright.net caching robot
BSpider
CACTVS Chemistry Spider
Calif
Cassandra
Checkbot
ChristCrawler.com
churl
cIeNcIaFiCcIoN.nEt
CMC/0.01
Collective
Combine System
ComputingSite Robi/1.0
Conceptbot
ConfuzzledBot
CoolBot
Cusco
CyberSpyder Link Test
CydralSpider
Desert Realm Spider
DeWeb(c) Katalog/Index
DienstSpider
Digger
Digimarc MarcSpider
Digimarc Marcspider/CGI
Digital Integrity Robot
Direct Hit Grabber
DNAbot
DownLoad Express
DragonBot
DWCP (Dridus' Web Cataloging Project)
e-collector
EbiNess
EIT Link Verifier Robot
ELFINBOT
Emacs-w3 Search Engine
ananzi
esculapio
Esther
Evliya Celebi
FastCrawler
Fluid Dynamics Search Engine robot
Felix IDE
FetchRover
fido
Fish search
FocusedCrawler
Fouineur
Freecrawl
FunnelWeb
gammaSpider
gazz
GCreep
GetBot
GetterroboPlus Puu
GetURL
Golem
Googlebot
Googlebot-Image
Googlebot-Mobile
Grapnel
Griffon
Gromit
Gulper Bot
Hämähäkki
HamBot
Harvest
havIndex
HKU WWW Octopus
HI (HTML Index) Search
Hometown Spider Pro
ht://Dig
html_analyzer
HTMLgobble
Hyper-Decontextualizer
iajaBot
IBM_Planetwide
Ingrid
image.kapsi.net
Imagelock
IncyWincy
Informant
InfoSeek Robot 1.0
Infoseek Sidewinder
InfoSpiders
Inktomi Slurp
Inspector Web
IntelliAgent
Internet Cruiser Robot
Internet Shinchakubin
I, Robot
Iron33
Israeli-search
JavaBee
JBot Java Web Robot
JCrawler
Jeeves
JoBo Java Web Robot
Jobot
JoeBot
The Jubii Indexing Robot
JumpStation
Katipo
KDD-Explorer
Kilroy
KIT-Fireball
KO_Yappo_Robot
LabelGrabber
larbin
legs
Link Validator
LinkScan
LinkWalker
Lockon
logo.gif Crawler
Lycos
Mac WWWWorm
Magpie
marvin/infoseek
Mattie
MediaFox
MerzScope
MindCrawler
mnoGoSearch search engine software
moget
MOMspider
Monster
Motor
MSNBot
Muncher
Muninn
Muscat Ferret
Mwd.Searche
NDSpider
NEC-MeshExplorer
Nederland.zoek
NetCarta WebMap Engine
NetMechanic
NetScoop
newscan-online
NHSE Web Forager
Nomad
Northern Light Gulliver
nzexplorer
ObjectsSearch
Occam
OntoSpider
Openfind data gatherer
Open Text Index Robot
Orb Search
Pack Rat
PageBoy
ParaSite
Patric
pegasus
PerlCrawler 1.0
Phantom
PhpDig
PiltdownMan
Pimptrain.com's robot
Pioneer
Popular Iconoclast
Portal Juice Spider
PGP Key Agent
PlumtreeWebAccessor
Poppi
PortalB Spider
psbot
Raven Search
RBSE Spider
Resume Robot
RoadHouse Crawling System
RixBot
Road Runner: The ImageScape Robot
Robbie the Robot
RoboCrawl Spider
RoboFox
Robot Francoroute
Robozilla
Roverbot
RuLeS
SafetyNet Robot
Scooter
Sleek
Search.Aus-AU.COM
SearchProcess
Senrigan
SG-Scout
ShagSeeker
Shai'Hulud
Sift
Simmany Robot Ver1.0
Site Valet
SiteTech-Rover
Skymob.com
SLCrawler
Smart Spider
Snooper
Solbot
Spanner
Speedy Spider
spider_monkey
SpiderBot
Spiderline Crawler
SpiderMan
SpiderView(tm)
Spry Wizard Robot
Site Searcher
Suke
suntek search engine
Sven
Sygol
TACH Black Widow
Tarantula
tarspider
Tcl W3 Robot
TechBOT
Templeton
TeomaTechnologies
The NorthStar Robot
The NWI Robot
The Peregrinator
The Python Robot
The TkWWW Robot
The Webfoot Robot
The Web Moose
The Web Wombat
The World Wide Web Worm
TITAN
TitIn
TLSpider
UCSD Crawl
UdmSearch
UptimeBot
URL Check
URL Spider Pro
Valkyrie
Verticrawl
Victoria
vision-search
void-bot
Voyager
VWbot
W3M2
w3mir
Walhello appie
WallPaper (alias crawlpaper)
the World Wide Web Wanderer
w@pSpider by wap4.com
WebBandit Web Spider
WebCatcher
WebCopy
Web Core / Roots
webfetcher
Webinator
weblayers
WebLinker
Weblog Monitor
WebMirror
WebQuest
WebReaper
webs
Websnarf
WebSpider
WebStolperer
WebVac
webwalk
WebWalker
WebWatch
WebZinger
Wget
whatUseek Winona
WhoWhere Robot
Wild Ferret Web Hopper
Wired Digital
WWWC Ver 0.2.5
XGET
XYLEME Robot
Yahoo! Crawler
Liste von Webcrawlern
Welche Webcrawler gibt es nach deren Aufgabe?
Webcrawler, um Inhalte von Webseiten nach Texten zu durchsuchen.
Webcrawler, um Inhalte von Webseiten nach Bildern zu durchsuchen.
Harvester, um Inhalte von Webseiten nach E-Mail-Adressen zu durchsuchen.
Welche Webcrawler gibt es nach deren Nutzen?
Es gibt nützliche Webcrawler, die ja dabei helfen, dass man in deren SUchmaschine gefunden wird.
Es gibt schlechte (bad) Webcrawler, die sich nicht an die robots-Dateien halten und eine Webseite (nach E-Mail-Adressen) ausspionieren wollen.
Webcrawler Definition
Was ist ein Webcrawler?
Der Webcrawler ist ein
Computerprogramm.
Webcrawler benennen
Welche Namen gibt es für Webcrawler?
Robot, Spider, Searchbot, Bot, Suchmaschinenrobot, Suchroboter
Was heisst Webcrawler auf Englisch?
Was heisst Webcrawler auf Französisch?
Was heisst Webcrawler auf Spanisch?
Was heisst Webcrawler auf Niederländisch?
Wir arbeiten dran: Mobile
Praxislexikon für unterwegs.
Webcrawler ausschliessen
Wie kann man einen Webcrawler von einer Suche per Robots-Datei ausschliessen?
Webcrawler durchsuchen Webseitenverzeichnisse nach deren Inhalt.
Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
Was sie aber sehen können, kann man mit einer
Robots-Datei festlegen.
So kann man bestimmte Webcrawler ausschliessen.
Man kann auch bestimmte Teile (Verzeichnisse oder Dateien) von der Suche ausschliessen.
Wie kann man alle Webcrawler von einer Suche per Metadaten ausschliessen?
Webcrawler durchsuchen Webseiten nach deren Inhalt.
Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
Man bearbeitet die
Metadaten im
Quelltext.
Das Ziel ist einen Webcrawler daran zu hindern die Seite zu durchsuchen. Also schreibt man folgende Zeile als Meta-Tag (Meta-Befehl):
<meta name= "robots" content = "noindex,nofollow" >
Wie kann man einen Webcrawler von einer Suche per Metadaten ausschliessen?
Webcrawler durchsuchen Webseiten nach deren Inhalt.
Man bearbeitet die
Metadaten im
Quelltext.
Wenn man nicht will, dass Google die Seite durchsucht, schreibt man folgende Zeile als Meta-Tag (Meta-Befehl):
<meta name="googlebot" content="noindex">
Wie kann man einen Webcrawler von einer Suche per htaccess ausschliessen?
Webcrawler durchsuchen Webseiten nach deren Inhalt.
Man bearbeitet die
.htaccess-Datei.
Man muss die Webcrawler einzeln identifieren, die man ausschliessen will.
Welche Webcrawler überhaupt auf eine Webseite zugreifen, kann man in den Webserver-Logfiles sehen.
In der .htaccess-Datei kann man die Webcrawler dann einzeln aufführen durch Nennung der Domain oder der IP-Adresse.
Webcrawler auswählen
Wie kann man einen Webcrawler in einer robots-Datei auswählen?
Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
Wenn man einem bestimmten Webcrawler in einer robots-Datei eine Anweisung geben will, schreibt man folgendes in die Datei:
User-agent: ausgewaehlterwebcrawler
ausgewaehlterwebcrawler ersetzt man durch den Namen des Webcrawlers.
Wie kann man alle Webcrawler in einer robots-Datei auswählen?
Jede Domain, aber auch jede Subdomain muss einzeln behandelt werden.
Wenn man alle Webcrawler in einer robots-Datei eine Anweisung geben will, schreibt man folgendes in die Datei:
User-agent: *
Webcrawler steuern
Wie kann man einen Webcrawler steuern?
Jede Domain, aber auch jede SUbdomain muss einzeln behandelt werden.
Mit einer
Robots-Datei kann man Webcrawlern Anweisungen geben, was sie durchsuchen dürfen.
Man kann in den
Metadaten einer Datei Anweisungen für Webcrawler geben.
Webcrawler überprüfen
Wie kann man einen Webcrawler auf Echtheit überprüfen?
Man sucht sich im Log seines Servers eine IP-Adresse heraus, die man überprüfen will.
Man macht ein reverse DNS lookup, wodurch man diese IP-Adresse mit seinem Computer verfolgen kann.
Das Ergebnis gibt man wieder in das Suchfeld ein.
Ist es die selbe IP-Adresse?
Wenn ja, dann stimmt alles.
Wie kann man einen Webcrawler mit whois auf Echtheit überprüfen?
Man sucht sich im Log seines Servers eine IP-Adresse heraus, die man überprüfen will.
Man macht ein reverse DNS lookup, indem man diese IP-Adresse mit einer Suchmaske verfolgen kann.
HIER
Man schaut sich dass Ergebnis an, ob dort eine Suchmaschine steht.
Das Ergebnis gibt man wieder in den Suchkasten ein.
HIER
Ist es die selbe IP-Adresse?
Wenn ja, dann stimmt alles.
Webcrawler verwenden
Wofür kann man einen Webcrawler verwenden?
Webseite durchsuchen.
Webcrawler Links
Welche weiteren Links gibt es zum Thema Webcrawler?