De tekst uit de inleiding van de Volkstelling 1899 is via scanning en OCR geconverteerd. Dat is ook gedaan met de kleine tabellen uit de inleiding (van twee pagina's of minder) en met de voorkolom van het rijksdeel van de beroepstelling. Voor het overige zijn alle tabellen van de Volkstelling 1899 (incl. beroeps- en woningtelling) handmatig ingetoetst. Dat is gedeeltelijk gedaan bij het CBS (vestiging Heerlen) en gedeeltelijk, in opdracht van het CBS, bij IVA Data Entry Services BV te Rijswijk (vestiging Heerlen). Bij het handmatig intoetsen heeft in alle gevallen controletoetsing plaats gevonden om het aantal invoerfouten zoveel mogelijk te beperken.

De inhoudsconversie heeft dus grotendeels handmatig plaatsgevonden. Tabel 2 geeft een overzicht van de aantallen verwerkte pagina's van de Volkstelling 1899 (incl. beroeps- en woningtelling). Het totaal aantal ingevoerde pagina's bedraagt ca. 10.000, waarvan de eigenlijke VT er ca. 3000 omvat. Uitgaande van een geschat gemiddeld aantal tekens per tabel-pagina van ruim 1700, is geschat dat het totaal aantal tekens in de tellingen ca. 17 miljoen bedraagt.

Tabel2, 1899

Besloten is om het deel van de beroepstelling, waarin de gegevens zijn gepubliceerd naar gemeente-grootteklassen, niet in te voeren. Met het beschikbaar komen van een bestand met gegevens per gemeente is deze informatie grotendeels redundant. Ook voor controle op de juistheid voegt dat deel weinig toe, omdat er al tal van andere aggregaties zijn, die controle mogelijk maken.

Controles en correcties op de gegevensbestanden

Bij de inhoudsconversie is er naar gestreefd om geen informatie verloren te laten gaan en om de gegevens op een zo 'brongetrouw' mogelijke manier over te nemen uit de publicaties. In principe is alle informatie uit de tabellen en toelichtende teksten gedigitaliseerd. De gebruiker heeft bovendien de digitale images als controlemiddel. Na voltooiing van de data-invoer van de tabellen van de VT 1899 zijn controles op de juistheid van de gegevens in de database uitgevoerd. Belangrijkste instrument hierbij vormde het vergelijken van in de bron gegeven totalen met berekende totalen. Er kunnen zich verschillende typen van fouten voordoen:

  • Invoerfouten: deze zijn gecorrigeerd. Omdat dubbel is getoetst, zijn slechts weinig data-entryfouten gevonden.
  • Fouten doordat de gedrukte informatie onleesbaar is: waar mogelijk kunnen de waarden worden afgeleid uit andere gegevens in de bron. In de volkstelling van 1899 komt dit in beperkte mate voor. Deze fouten zijn gecorrigeerd.
  • Bronfouten: berekende totalen kunnen afwijken van gegeven totalen door druk- of optelfouten. Controle heeft plaats gevonden door totaliseren van rijen en kolommen en vergelijking met rij-, respectievelijk kolomtotalen. Deze fouten zijn niet gecorrigeerd. Wel is er een bestand beschikbaar met een overzicht van geconstateerde bronfouten en, waar mogelijk, suggesties voor correctie.

Ook in voetnoten opgenomen aantallen personen bleken effect te hebben op ogenschijnlijke fouten. Noten bij de tabellen zijn aangebracht en gedeeltelijk herleid tot extra tabelkolommen (in sommige gevallen zijn in de oorspronkelijke publicaties weinig voorkomende getallen in voetnoten vermeld om ruimte te sparen).

Ten aanzien van de Inleiding 1899 is geprobeerd het uiterlijk van de elektronische tekst zo goed mogelijk te laten lijken op de oorspronkelijk gedrukte pagina's. Bij de lijsten en tabellen is dit principe minder strikt toegepast. Hierbij stonden twee uitgangspunten centraal: ten eerste het algemene principe dat geen informatie verloren mocht gaan en ten tweede het gebruikersgemak bij verdere verwerking (bijvoorbeeld analyse in een spreadsheet-programma). Zo zijn bijvoorbeeld tabellen en lijsten, die in het boek in kolommen waren gezet, doorgaans omgezet naar één kolom. Oplossingen werden gevonden voor herhalingen (die met aanhalingstekens waren aangegeven) en voor cellen die waren samengevoegd (accolades in de gedrukte tabellen). Voetnoten in tabellen zijn in afzonderlijke kolommen opgenomen. Verduidelijkingen en toevoegingen (bijvoorbeeld van opschriften en titels) zijn tussen teksthaken geplaatst.

In de inleiding op de VT 1899 is de variëteit aan tabellen zeer groot en blijkt ook de diversiteit aan fouten groot te zijn (NB: het gaat hier om fouten die door de samenstellers van de telling van 1899 gemaakt zijn, niet om data-entry fouten!). Dit hangt ongetwijfeld samen met het feit dat in deze relatief kleine, samenvattende tabellen, zeer uiteenlopende berekeningen en bewerkingen zijn uitgevoerd. De gebruiker wordt daarom gewaarschuwd voor mogelijke verschillen tussen tellingen uit rijen of kolommen van een tabel en de overeenkomstige totaalrijen, respectievelijk totaalkolommen in die tabel.

De beroepenclassificatie van 1899

Voor de classificatie van de beroepen in 1899 is aanvankelijk uitgegaan van bijlage II uit de Inleiding. Verondersteld werd dat deze classificatie alle beroepen uit de telling zou omvatten. In de classificatie worden vier hiërarchische niveaus onderscheiden. De beroepen uit deze lijst zouden worden gekoppeld aan de cijfers van de beroepstelling. Bij controles bleken echter aanzienlijke verschillen in beroepsomschrijvingen te bestaan tussen de classificatie en de formuleringen in de twaalf delen van de Beroepstelling. Hierop zijn ook de beroepsomschrijvingen uit de Beroepstelling van het Rijk als geheel gedigitaliseerd via scanning en OCR, alsmede de omschrijvingen uit bijlage III van de Inleiding. Na analyse van de verschillende lijsten is die uit het Rijksdeel van de beroepstelling genomen als groslijst voor de koppeling van de beroepenclassificatie met de cijfers in de tabellen. Toch werden tijdens de invoer nog steeds afwijkingen gevonden. Iedere afwijking van een beroepstitel die niet duidelijk een drukfout betrof, werd in het bestand geregistreerd. Op het totaal van ca. 100.000 records van de beroepstelling 1899 bleken ruim 2.500 beroepstitels niet in de groslijst voor te komen. Deze varianten zijn achteraf afzonderlijk behandeld en alsnog geklasseerd. Het resultaat is verwerkt in de beroepenclassificatie voor 1899. In een afzonderlijk bestand zijn de beslissingen met betrekking tot de beroepenclassificatie vastgelegd.

Drankbestrijding Drankbestrijding. Nederlandsche Vereeniging tot Afschaffing van Alcoholhoudende Dranken. Affiche ontworpen door Willem Vaarzon Morel, 1898/1899. Bron: Internationaal Instituut voor Sociale Geschiedenis, Amsterdam.

Ook een arbeider Ook arbeider. Patroon: "Zoo, zoo, de winst van dit jaar niet groot... en we hebben nog wel zoo hard gewerkt." Knecht: "'k begrijp nog niet, hoe of U het uithoudt." Bron: Internationaal Instituut voor Sociale Geschiedenis, Amsterdam.

Vreemde eend Een vreemde eend in de bijt. Koningin Wilhelmina: "Waarom kwaken die eendjes zoo?" Doctor Criticus: "Majesteit, er is een vreemde eend in de bijt, de eerste arbeiders-eend." Bron: Internationaal Instituut voor Sociale Geschiedenis, Amsterdam.

Leerplicht Leerplicht vóór een nieuwe Armenwet. Tekst: Huisvader (tot Mr. Borgesius): Eerst kleeren en brood, mijnheer! Bron: Internationaal Instituut voor Sociale Geschiedenis, Amsterdam.

Woningen Bouwtekening van twaalf woningen aan de IJlsterkade te Sneek (op de tekening genoemd 'Kaatsland'). De pentekening toont het vooraanzicht en de plattegrond. Men lette op de beschikbare woonruimte in ieder huis. Bron: Fries Scheepvaart Museum.

Brandweer De Amsterdamsche Brandweer, voorheen en thans. 1874-1899. Prent door Petrus Geldorp, 1899. Bron: Internationaal Instituut voor Sociale Geschiedenis, Amsterdam.

(Klik op bovenstaande afbeeldingen voor een grotere versie)