Informatie op website beter vindbaar maken met site-specifiek zoeksysteem

door ing. Jan Everink

augustus 2002

Zodra een website of een sectie van een site een zekere omvang heeft bereikt is de aanwezigheid van een site-specifieke zoekvoorziening, ofwel intrasearch-systeem, voor de bezoeker een groot gemak. Voor het aan de site toevoegen van zo'n systeem staan twee wegen open: een eigen softwareproduct aanschaffen en installeren of gebruik maken van de dienstverlening van een ASP (Application Service Provider). Voor elk van deze twee oplossingen is een ruim aanbod beschikbaar. De verschillen tussen de op de markt zijnde producten en diensten zijn echter aanzienlijk.


Werking intrasearch-systeem

Bij de meeste intrasearch-systemen vindt het eigenlijke zoeken niet plaats in de webpagina's zelf maar in een voor dit doel samengestelde database, de search-index. Dit bestand bevat alle gegevens die voor het zoeken en voor de presentatie van de resultaten van belang zijn.

Omdat de index veel kleiner is dan de website zelf gaat het zoeken in de index aanzienlijk sneller dan het zoeken in de website. Overigens hebben sommige zoeksystemen ook de mogelijkheid om direct in de site te zoeken. Dit is echter alleen bij relatief kleine websites praktisch toepasbaar, reden waarom vrijwel altijd een search-index wordt gebruikt.

Het updaten of opnieuw opbouwen van de index moet herhaaldelijk plaatsvinden. Steeds als er iets in de site verandert moet ook de index worden aangepast. Voor het creëren en updaten van de search-index is een speciaal programma, de indexer, onderdeel van het systeem.

Mits de index is bijgewerkt zullen site-bezoekers met het zoeksysteem snel kunnen vinden wat ze zoeken. Zodra door een site-bezoeker een zoek-opdracht wordt verstuurd gaat de eigenlijke search engine ofwel zoekmachine in de search-index zoeken. De gevonden pagina's worden vervolgens op een gegenereerde webpagina, de resultatenpagina, aan de site-bezoeker gepresenteerd. Van elke gevonden pagina wordt een korte beschrijving op deze resultatenlijst weergegeven. Door op een van deze vermeldingen te klikken kan de betreffende pagina in de browser worden opgeroepen.


Indexering

Voor het indexeren kunnen twee methodes worden toegepast: indexering volgens de directory-structuur en hyperlink-indexering.

Bij indexering volgens directory-structuur, ook wel lokale indexering genoemd, brengt de indexer in principe een bezoek aan elk bestand van de site. Alleen de directories en bestanden die men bij het configureren (het aanpassen ten behoeve van de eigen toepassing) heeft uitgesloten worden niet bezocht.

Bij deze methode van indexeren bestaat het risico dat bepaalde niet voor het publiek bestemde bestanden wél in de index terechtkomen. Dat kan worden voorkomen door extra zorgvuldigheid bij het tijdens het configureren aangeven welke bestanden wél en welke niet als zoekresultaat vermeld mogen worden.

Bij de andere methode, hyperlink-indexering, maakt de indexer gebruik van de op de pagina's van de site aanwezige hyperlinks. Soms worden daarbij alleen standaard HTML-links herkend en niet de links in JavaScript-, Flash-, of andere niet-HTML-onderdelen van de pagina. De indexer bezoekt als eerste de startpagina (in principe de home page) en gaat vervolgens naar de pagina's waarvoor hij op de startpagina hyperlinks aantreft. Op deze pagina's bevinden zich ook weer hyperlinks, en ook deze worden door de indexer gevolgd. Op deze wijze wordt, van hyperlink naar hyperlink gaand, de hele site geïndexeerd.

Ook bij hyperlink-indexering is het mogelijk bepaalde directories en bestanden uit te sluiten. Ook kan bij het configureren veelal worden aangegeven dat niet met de home page maar met een andere pagina begonnen moet worden.

Een nadeel van hyperlink-indexering kan zijn dat sommige pagina's niet worden gevonden omdat ze niet via een standaard-HTML-link bereikbaar zijn. Een mogelijke oplossing hiervoor is dat deze pagina's handmatig aan de index worden toegevoegd.


Keuze product of service

Bij het kiezen van een softwareproduct of online service voor intrasearch zijn diverse factoren van belang. Op de eerste plaats moet worden gekozen tussen aanschaf van een eigen systeem of gebruik maken van een online dienstverlening. Beide mogelijkheden hebben voor- en nadelen.

Een belangrijk voordeel van de toepassing van een externe service is dat men geen software hoeft te installeren. Ook is het aanpassen aan de eigen wensen en voorkeuren bij de meeste online intrasearch-diensten vrij gemakkelijk. Een nadeel kan zijn dat de mogelijkheden tot aanpassing van de vormgeving bij externe services soms beperkt zijn.

Bij sommige intrasearch-providers moet voor de service worden betaald, bij andere is het gebruik gratis. Vaak verschijnen bij de gratis dienstverleningen advertentie-banners op de resultatenpagina. Bij sommige providers kan worden gekozen uit gratis service met beperkte mogelijkheden of betaalde service met alles erop en eraan.

Een belangrijk voordeel van een eigen programma is in het algemeen dat het systeem daarbij qua vormgeving heel goed in de site geïntegreerd kan worden. Een ander pluspunt is dat men wat betreft de continuïteit van de zoekfunctie niet afhankelijk is van een externe provider. Een nadeel kan zijn dat de installatie van het product niet altijd zonder problemen verloopt.

Bij de aanschaf van een intrasearch-product moet uiteraard worden opgelet dat het geschikt is voor het operating system van de webserver. Als uw site bij een externe host is ondergebracht moet u weten of de betreffende server onder bijvoorbeeld Unix, Linux of Windows NT draait.

Van belang is verder dat veel intrasearch-producten zijn geschreven in PERL. Omdat PERL een scripttaal is kan een PERL-programma alleen werken als er een PERL-interpreter op de computer aanwezig is. De beschikbare PERL-versie moet bovendien voor het betreffende softwareproduct geschikt zijn.

Zowel in de categorie externe services als bij de producten is het aanbod heel uitgebreid en veelzijdig. De verschillen tussen de diverse online diensten en tussen de op de markt zijnde producten zijn aanzienlijk.

Onder meer is van belang op welke wijze de indexering is geregeld. Een bij sommige systemen aanwezige praktische voorziening is bijvoorbeeld automatische periodieke indexering. Nadat die eenmaal is ingesteld wordt op vaste tijden de hele index automatisch opnieuw opgebouwd.

Andere belangrijke aspecten bij de keuze van een service of product zijn onder meer: het installatiegemak, de configureerbaarheid, de flexibiliteit wat betreft het uitsluiten van pagina's, de mogelijkheden tot aanpassing van de vormgeving en het al dan niet beschikbaar zijn van geavanceerde zoekmogelijkheden.


Installeren en configureren

Als voor het intrasearch-systeem een eigen softwareproduct wordt toegepast moet dit programma om te beginnen in de CGI-bin worden geïnstalleerd. Dat kan soms lastig zijn, met name als de website op een externe server is geplaatst. Door overleg met de systeembeheerder van de externe host kunnen eventuele problemen meestal vrij vlot worden opgelost.

Na het installeren volgt het configureren, het aanpassen van het systeem voor de eigen toepassing. Bij het gebruik van een online service hoeft zoals vermeld geen software geïnstalleerd te worden, maar configuratie van het systeem is ook daarbij wél vereist.

In het algemeen is het configureren van een online intrasearch-service vrij gemakkelijk. Onmiddellijk nadat men de website voor de betreffende dienstverlening heeft aangemeld krijgt men met een password toegang tot een eigen configuratie- ofwel admin-pagina. Via deze formulierpagina kan men uiteenlopende keuzes aan het systeem doorgeven.

Ook bij intrasearch-producten is het configureren soms vergemakkelijkt door de aanwezigheid van een voor dit doel bestemd hulpprogramma. Bij sommige producten is voor het configureren wel enige technische kennis vereist.


Vormgeving

Van belang is dat het intrasearch-systeem wat vormgeving betreft zo volledig mogelijk één geheel vormt met de rest van de site. Als de vormgeving van de tot het zoeksysteem behorende pagina's te zeer verschilt van de overige pagina's kan de bezoeker de indruk krijgen dat hij de site heeft verlaten.

Wat de vormgeving betreft gaat het in principe om drie pagina's: het zoekformulier, de resultatenpagina en de help-pagina. De mogelijkheden om deze pagina's naar wens aan te passen zijn bij softwareproducten doorgaans uitgebreider dan bij online services, maar ook bij sommige services is vérgaande customizing mogelijk.

Voor het aanpassen van de vormgeving worden veelal zogenoemde templates toegepast. Dit zijn webpagina's zonder inhoud die als voorbeeld dienen bij het automatisch door het systeem genereren van pagina's. De template-pagina's kunnen worden vormgegeven zoals de overige pagina's van de site, waarbij door middel van codes wordt aangegeven waar de intrasearch-content geplaatst moet worden.

Bij sommige systemen is het mogelijk om op in principe elke pagina van de site een zoekveld te plaatsen. Voor de sitebezoeker heeft dat als voordeel dat hij of zij onmiddellijk vanaf de pagina die op dat moment op het scherm staat kan gaan zoeken. Ook uit het oogpunt van vormgeving is dit een goede oplossing, want de pagina's met een zoekveld houden verder hun normale aanzien.


Zoekmogelijkheden

Een essentieel aspect in verband met de keuze van een intrasearch-systeem is in hoeverre geavanceerde zoekmethodes toegepast kunnen worden. Belangrijke zoek-opties zijn bijvoorbeeld het gebruik van booleaanse operatoren en het gebruik van wildcards.

Booleaanse operatoren maken het mogelijk om een aantal zoektermen in een logische samenhang toe te passen. Door middel van het woord "and" of het plusteken (+) kan bijvoorbeeld worden aangegeven dat bepaalde zoektermen per se in het document moeten voorkomen. Dit wordt ook wel keyword forcing genoemd.

Met het woordje "not" of het minteken (-) is keyword exclusion mogelijk: aangeven dat pagina's gezocht moeten worden waarin de betreffende term juist niet voorkomt.

Plaatsing van het woordje "or" tussen meerdere zoektermen heeft tot gevolg dat reeds een treffer op één van de termen leidt tot weergave van de pagina op de resultatenlijst. (Dat is ook het geval bij eenvoudige zoekmethodes, waarbij de zoektermen door spaties zijn gescheiden.)

Voor ervaren zoekers is ook de mogelijkheid tot het gebruik van zogenoemde wildcards een waardevolle optie. Met wildcards is het mogelijk om te zoeken met woorden die voor een deel onbepaald zijn. Een ster (*) betekent bijvoorbeeld veelal dat daar een of meer willekeurige letters mogen staan. Als wordt gezocht op *voeding* zullen zowel voedingssupplement, voedingstekort als ondervoeding als treffer gelden.

Indien geavanceerde zoekmogelijkheden gebruikt mogen worden is meestal een help-pagina op te roepen met instructies inzake de juiste toepassing van deze opties.


Uitsluiting

Meestal zijn niet alle op een site aanwezige bestanden bestemd om door bezoekers te worden bekeken. Daarom moet het mogelijk zijn maatregelen te nemen waardoor het intrasearch-systeem bepaalde tot de site behorende bestanden niet vindt. Bij vrijwel alle zoeksystemen zijn zulke voorzieningen beschikbaar.

Zo is het in het algemeen mogelijk om bepaalde met name genoemde HTML-pagina's uit te sluiten. Ook kan meestal worden aangegeven dat bepaalde directories van de site volledig overgeslagen dienen te worden.

Ook het uitsluiten van bestands-extensies is vaak mogelijk. Dat is van belang als het zoeksysteem naast HTML-pagina's ook andere bestandstypen kan vinden.

Het uitsluiten van bestanden, bestandstypen en directories vindt al plaats bij de indexering. Bij sommige systemen is het mogelijk de gegenereerde index te bekijken en handmatig aan te passen. Zo kunnen alsnog bepaalde bestanden die niet automatisch zijn uitgesloten uit de index worden verwijderd. Andersom kunnen pagina's die ten onrechte zijn uitgesloten handmatig worden toegevoegd.


Resultatenweergave

Op de resultatenpagina verschijnen korte beschrijvingen van de gevonden pagina's. Van belang is welke informatie in deze samenvattingen wordt gepresenteerd en op welke wijze dat gebeurt. Meestal wordt in ieder geval de titel van de pagina, dat wil zeggen de tekst in de HTML-specificatie Title, weergegeven. Daaronder volgt veelal de tekst van de HTML-specificatie Description.

Bij sommige systemen wordt in plaats van de Description een selectie uit de tekst van de webpagina zélf gepresenteerd. Ook bij sommige webwijde search engines wordt deze methode toegepast. In het algemeen is dit systeem voor de informatiezoekende nogal verwarrend omdat de automatische tekstselectie vaak tot een chaotische en weinig-relevante samenvatting leidt.

Een ander aspect is de volgorde van de abstracts op de resultatenpagina. Veelal staan de meest relevante pagina's bovenaan, waarbij de relevantie wordt bepaald door het aantal keywordtreffers. Daarbij wordt soms aan keywords in de HTML-specificaties Title, Description en Keywords groter gewicht toegekend dan aan keywords in de pagina-tekst.

Verder is het bij sommige systemen mogelijk om nog extra informatie over de gevonden pagina's te laten weergeven, zoals de bestandsgrootte, het webadres en de laatste mutatiedatum.

Een andere praktische voorziening die soms wordt aangetroffen is de mogelijkheid tot het vet weergeven van de zoekwoorden in de resultaatbeschrijvingen. De informatiezoekende ziet zo snel of de woorden voorkomen in een samenhang zoals die bedoeld was.


Andere voorzieningen

Nog diverse andere hoedanigheden kunnen wel of niet in een intrasearch-service of -product worden aangetroffen.

Heel nuttig is de vaak aanwezige mogelijkheid om een lijst met stopwoorden in te voeren. Dit zijn veelvoorkomende woorden zoals "de", "een" en "dat", die bij het indexeren en zoeken buiten beschouwing moeten blijven. Door deze woorden uit te sluiten zal in het algemeen de snelheid van het systeem toenemen.

Handig kan ook zijn dat het in principe mogelijk is om in meerdere domeinen te zoeken. Deze optie kan bijvoorbeeld waardevol zijn voor grotere organisaties met meerdere sites.

Sommige systemen bieden vrij uitgebreide mogelijkheden om bij het zoeken bepaalde document-onderdelen extra gewicht te geven. Onder meer kunnen bijvoorbeeld de woorden in de HTML-specificatie Keywords extra zwaar wegen.

Interessant is verder dat bij sommige systemen een logfile wordt bijgehouden met bijzonderheden over alle uitgevoerde zoekopdrachten. De in dit bestand geregistreerde informatie kan nuttig zijn om na te gaan waar de belangstelling van de site-bezoekers naar uit gaat.


Voorbereiding webpagina's

De aanwezigheid van een intrasearch-systeem op een site zal meer succesvol zijn naarmate de pagina's van deze site beter aan zekere eisen voldoen.

Zo zal het systeem in het algemeen doeltreffender functioneren als op iedere pagina slechts één hoofd-onderwerp wordt beschreven. Belangrijk is ook dat de woorden die veelal met dit onderwerp worden geassocieerd herhaaldelijk in de tekst voorkomen. Zulke interesse-termen moeten ook voorkomen in de Description-, Keywords- en Title-specificatie.

Verder is het wenselijk dat de teksten in de Title- en de Description-specificatie tezamen een duidelijke samenvatting van de pagina-inhoud vormen. Bij de meeste zoeksystemen zijn het namelijk deze teksten die op de resultatenpagina worden weergegeven.

Om bepaalde pagina's uit te sluiten van indexering kan de HTML-specificatie Robots worden toegepast. Als bij deze specificatie "noindex" wordt vermeld heeft dat bij veel intrasearch-systemen tot gevolg dat deze pagina niet in de search-index wordt opgenomen.

Bij het aan de webpagina's toevoegen van zulke informatie ten behoeve van het intrasearch-systeem moet overigens wél worden bedacht dat ook de meeste webwijde zoekdiensten deze specificaties gebruiken.


Navigatie-structuur blijft belangrijk

Het via de navigatie-structuur vinden wat men zoekt is bij grotere sites vaak niet gemakkelijk. De meeste site-bezoekers hebben haast en zijn niet geduldig genoeg om zich te verdiepen in de navigatie-aanwijzingen. Ze slaken een zucht van verlichting als er een zoekmogelijkheid op de site beschikbaar is.

Een intrasearch-systeem vormt een waardevolle aanvulling op de navigatie-structuur maar kan deze niet vervangen. Met name voor de regelmatig terugkerende site-bezoeker heeft een goede navigatie-structuur voordelen die niet door een zoeksysteem kunnen worden geboden. De bezoeker die goed in een site de weg weet navigeert met enkele muisklikken naar de gewenste pagina.

Bij snel groeiende sites komt het nogal eens voor dat een achterstand ontstaat wat betreft het aanpassen van de navigatie-structuur. Het gevolg kan zijn dat de site minder toegankelijk wordt en een rommelige indruk maakt. Het implementeren van een zoeksysteem is geen remedie tegen zo'n situatie. Een doelmatige structuur, met een eenvoudige hoofdindex op iedere pagina en een overzichtelijke indexpagina voor iedere sectie van de site, blijft ook bij aanwezigheid van een zoeksysteem onmisbaar.


Bureau Everink    ~    Bankierbaan 66    ~    1315 LB Almere    ~    tel. 036-5341954    ~     fax 036-5338705
Copyright © 1998-2006 Bureau Everink