duizend jaar geschiedenis ligt op honderd
kilometer plank van het
de geschiedenis dijt uit, jaarlijks met kilometers

Catch+, Scratch+, … Scratch4All
Catch+, Scratch+, ... Scratch4All



Doel



SCRipt Analysis Tools for the Cultural Heritage



"Googelen" in digitale afbeeldingen van
 handgeschreven archiefmateriaal ....
Catch+, Scratch+, ... Scratch4All



 .... ongeacht het handschrift.




19e eeuws handschrift        20e eeuws Sütterlinschrift
MAAR: de computer moet elk handschrift aanleren
Catch+, Scratch+, ... Scratch4All



Methode


• patroonherkenning van woorden en delen van woorden
    • maar ... computer moet handschriften “leren” lezen
• regelmatigheden van de inhoud van teksten (statistische
  computerlinguistiek )
• layout-analyse
Catch+, Scratch+, ... Scratch4All



Nuttig voor archieven ?



• archieven zijn grotendeels
chronologisch geordend

• inventarissen en catalogi
bieden geen toegang

• digitalisering van de metadata
in deze toegangen levert dus te
weinig toegankelijkheid op
Catch+, Scratch+, ... Scratch4All



... want ...

                                    • chronologische archieven zijn
                                    veelal zeer omvangrijk

                                    • en bevatten heel veel
                                    verschillende handschriften,
                                    maar ...
Catch+, Scratch+, ... Scratch4All



... en ...

                                    • ... chronologische archieven:

                                    • zijn vaak wel voorzien van
                                    handgeschreven (alfabetische)
                                    indices, die

                                    • de metadata bevatten van de
                                    documenten in die archieven
                                    opgeslagen
Catch+, Scratch+, ... Scratch4All



dus ...


• de indices scannen
• de digitale afbeeldingen “scratchen”

• de chronologische brievenseries scannen
• GEEN metadata toekennen, behoudens een nummer

• linken van de “gescratchte” metadata van de indices aan de
  chronologisch geordende brieven
Catch+, Scratch+, ... Scratch4All



Metadata ...




• ... elke afzonderlijke paragraaf (index entry) verwijst naar een
document in de chronologische serie,
• i.c. 1903 Maart 4, No. 13
Catch+, Scratch+, ... Scratch4All



... gekoppeld aan het document
Catch+, Scratch+, ... Scratch4All



Huidige situatie

• wetenschappelijke resultaten zeer succesvol

• patroonherkenningssysteem lokaal bij RuG (AI)

• verschillende soorten bronnen zijn bewerkt

• maar:
• geen mogelijkheid om nieuwe bronnen toe te voegen en te
  bewerken
Catch+, Scratch+, ... Scratch4All



Gewenste situatie


• systeem beschikbaar buiten RuG-AI-omgeving

• proces beheersbaar en aanstuurbaar door deelnemende
  erfgoedinstellingen

• “gescratchte” bestanden raadpleegbaar in een
  gebruikersvriendelijke interface
Catch+, Scratch+, ... Scratch4All



Belang


• belangrijk voor erfgoedsector:
    • het kunnen ontsluiten van handgeschreven materiaal, op een
      snellere, efficiëntere manier


• belangrijk voor “het publiek”:
    • handgeschreven materiaal kunnen raadplegen, als ware het
      gedrukt


• innovatief:
    • een nauwelijks bestaande techniek komt beschikbaar
Catch+, Scratch+, ... Scratch4All



Belang voor Nationaal Archief



•          één meter

    “gescratchte” indices biedt
         toegang tot bijna

•          40 meter

  chronologisch geordende
Koninklijke besluiten, wetten en
        kabinetsbrieven
Catch+, Scratch+, ... Scratch4All



… en het archief van het Kabinet der Koningin


                                    • heeft een omvang van

                                     (periode 1798-1988):
                                        - 3250 strekkende meter


                                    • en bestaat uit:
                                        - 28.000 dozen
                                        - met ca. 1000 pagina’s per doos


                                        •    28.000.000 paginas (scans)
Catch+, Scratch+, ... Scratch4All



Resultaat voor andere instellingen


• software voor doorzoekbaar maken van handgeschreven
  teksten, zonder volledige annotatie

• mits:
   • de bron in één of slechts enkele handschriften is
     geschreven
   • de scans van goede kwaliteit zijn
   • de middelen aanwezig zijn om de computer het
     handschrift “aan te leren”
Catch+, Scratch+, ... Scratch4All



Planning

• definiëren gebruiksspecificaties (2009)

• contractonderhandelingen, projectplan (2010 jan.-juni)

• bouw systeemomgeving (2010 juli-okt.)
• bouw beheersmodule (2010 okt.- 2011 feb.)
• aanpassing of bouw transcriptie en zoekmodule (2011 feb.-
  juni)

• testen en instructie gebruik (2011 juli-dec.)
• oplevering (2011 laatste kwartaal)

More Related Content

PDF
40 вопросов современного e-learning
PPTX
Jonge documenten aan hun lot overgelaten
PPT
Erfgoedonderwijs: het archief als bron van beleving en reflectie
PPTX
De kracht van open data
PDF
Workshop persoonlijk leiderschap: zelfkennis is kracht
PPTX
Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?
PDF
Kracht van archieven de noordelijke lustwarande als resultaat van een nieuw...
PPTX
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
40 вопросов современного e-learning
Jonge documenten aan hun lot overgelaten
Erfgoedonderwijs: het archief als bron van beleving en reflectie
De kracht van open data
Workshop persoonlijk leiderschap: zelfkennis is kracht
Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?
Kracht van archieven de noordelijke lustwarande als resultaat van een nieuw...
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...

More from KVANdagen (20)

PPTX
The voice in the wilderness? Archivists, their knowledge and the public
PDF
Praktische linked data voor archieven
PPTX
Werken aan je toekomst
PPTX
Big data x big archives = great opportunities
PPTX
Informatie is een conceptueel labyrinth
PDF
Archiefgeschiedenis: wat, waarom, hoe wie?
PPTX
The Big Picture
PDF
Rhc eindhoven&promines
PPTX
Kvan dagen 2014 nha
PPT
Noord Hollands Archief Architectuur e depot - v2
PPT
Big Archives, Bigger Websites, Biggest Difference
PPT
APEx
PPT
20140617 kvan def
PDF
Publiek Geheim
PPT
European Holocaust Research Infrastructure
PPTX
VISI, formeel de essentie communiceren
PPTX
Bouwen met informatie. Wat u altijd al wilde weten over BIM
PPT
Betekenen Big Archives ook Big Risks?
PPT
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
PPTX
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
The voice in the wilderness? Archivists, their knowledge and the public
Praktische linked data voor archieven
Werken aan je toekomst
Big data x big archives = great opportunities
Informatie is een conceptueel labyrinth
Archiefgeschiedenis: wat, waarom, hoe wie?
The Big Picture
Rhc eindhoven&promines
Kvan dagen 2014 nha
Noord Hollands Archief Architectuur e depot - v2
Big Archives, Bigger Websites, Biggest Difference
APEx
20140617 kvan def
Publiek Geheim
European Holocaust Research Infrastructure
VISI, formeel de essentie communiceren
Bouwen met informatie. Wat u altijd al wilde weten over BIM
Betekenen Big Archives ook Big Risks?
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
Ad

KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie

  • 1. duizend jaar geschiedenis ligt op honderd kilometer plank van het de geschiedenis dijt uit, jaarlijks met kilometers Catch+, Scratch+, … Scratch4All
  • 2. Catch+, Scratch+, ... Scratch4All Doel SCRipt Analysis Tools for the Cultural Heritage "Googelen" in digitale afbeeldingen van handgeschreven archiefmateriaal ....
  • 3. Catch+, Scratch+, ... Scratch4All .... ongeacht het handschrift. 19e eeuws handschrift 20e eeuws Sütterlinschrift MAAR: de computer moet elk handschrift aanleren
  • 4. Catch+, Scratch+, ... Scratch4All Methode • patroonherkenning van woorden en delen van woorden • maar ... computer moet handschriften “leren” lezen • regelmatigheden van de inhoud van teksten (statistische computerlinguistiek ) • layout-analyse
  • 5. Catch+, Scratch+, ... Scratch4All Nuttig voor archieven ? • archieven zijn grotendeels chronologisch geordend • inventarissen en catalogi bieden geen toegang • digitalisering van de metadata in deze toegangen levert dus te weinig toegankelijkheid op
  • 6. Catch+, Scratch+, ... Scratch4All ... want ... • chronologische archieven zijn veelal zeer omvangrijk • en bevatten heel veel verschillende handschriften, maar ...
  • 7. Catch+, Scratch+, ... Scratch4All ... en ... • ... chronologische archieven: • zijn vaak wel voorzien van handgeschreven (alfabetische) indices, die • de metadata bevatten van de documenten in die archieven opgeslagen
  • 8. Catch+, Scratch+, ... Scratch4All dus ... • de indices scannen • de digitale afbeeldingen “scratchen” • de chronologische brievenseries scannen • GEEN metadata toekennen, behoudens een nummer • linken van de “gescratchte” metadata van de indices aan de chronologisch geordende brieven
  • 9. Catch+, Scratch+, ... Scratch4All Metadata ... • ... elke afzonderlijke paragraaf (index entry) verwijst naar een document in de chronologische serie, • i.c. 1903 Maart 4, No. 13
  • 10. Catch+, Scratch+, ... Scratch4All ... gekoppeld aan het document
  • 11. Catch+, Scratch+, ... Scratch4All Huidige situatie • wetenschappelijke resultaten zeer succesvol • patroonherkenningssysteem lokaal bij RuG (AI) • verschillende soorten bronnen zijn bewerkt • maar: • geen mogelijkheid om nieuwe bronnen toe te voegen en te bewerken
  • 12. Catch+, Scratch+, ... Scratch4All Gewenste situatie • systeem beschikbaar buiten RuG-AI-omgeving • proces beheersbaar en aanstuurbaar door deelnemende erfgoedinstellingen • “gescratchte” bestanden raadpleegbaar in een gebruikersvriendelijke interface
  • 13. Catch+, Scratch+, ... Scratch4All Belang • belangrijk voor erfgoedsector: • het kunnen ontsluiten van handgeschreven materiaal, op een snellere, efficiëntere manier • belangrijk voor “het publiek”: • handgeschreven materiaal kunnen raadplegen, als ware het gedrukt • innovatief: • een nauwelijks bestaande techniek komt beschikbaar
  • 14. Catch+, Scratch+, ... Scratch4All Belang voor Nationaal Archief • één meter “gescratchte” indices biedt toegang tot bijna • 40 meter chronologisch geordende Koninklijke besluiten, wetten en kabinetsbrieven
  • 15. Catch+, Scratch+, ... Scratch4All … en het archief van het Kabinet der Koningin • heeft een omvang van (periode 1798-1988): - 3250 strekkende meter • en bestaat uit: - 28.000 dozen - met ca. 1000 pagina’s per doos • 28.000.000 paginas (scans)
  • 16. Catch+, Scratch+, ... Scratch4All Resultaat voor andere instellingen • software voor doorzoekbaar maken van handgeschreven teksten, zonder volledige annotatie • mits: • de bron in één of slechts enkele handschriften is geschreven • de scans van goede kwaliteit zijn • de middelen aanwezig zijn om de computer het handschrift “aan te leren”
  • 17. Catch+, Scratch+, ... Scratch4All Planning • definiëren gebruiksspecificaties (2009) • contractonderhandelingen, projectplan (2010 jan.-juni) • bouw systeemomgeving (2010 juli-okt.) • bouw beheersmodule (2010 okt.- 2011 feb.) • aanpassing of bouw transcriptie en zoekmodule (2011 feb.- juni) • testen en instructie gebruik (2011 juli-dec.) • oplevering (2011 laatste kwartaal)