Korpus bibliotekarstva

Predhodnik korpusa

Strokovno delo pri pripravi Bibliotekarskega terminološkega slovarja (izšel je leta 2009) se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov s tradicionalnim "ročnim" izpisovanjem bibliotekarskih izrazov iz obsežnega seznama tiskanih slovenskih strokovnih besedil. Izpisovanje izbrane slovenske bibliotekarske strokovne literature v letih 1988 do 1999 je zajelo 291 sistematično in v celoti izpisanih besedil na skupno 6575 straneh, ob tem pa še naključne izpiske iz večjega števila ob delu uporabljenih besedil. Upoštevana so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki je predstavljal osnovni nabor izrazov za pripravo slovarja. Izpiski so bili že tedaj računalniško obdelani, računalniška besedilna zbirka je vsebovala 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Besedilnega korpusa in njegovih funkcij s takratno računalniško opremo, sredstvi in znanjem še ni bilo mogoče vzpostaviti. Danes je to že mogoče in julija 2011 je nastala zasnova slovenskega besedilnega Korpusa bibliotekarstva.

O slovenskem besedilnem Korpusu bibliotekarstva

Korpus bibliotekarstva je nastal predvsem kot pomoč in orodje za delo Bibliotekarske terminološke komisije pri urejanju in dopolnjevanju Bibliotekarskega terminološkega slovarja, dobrodošel pa bo tudi avtorjem prispevkov na blogu Bibliotekarska terminologija. Korpus je javno dostopen, zato upamo, da bo koristil tudi strokovnim kolegom bibliotekarjem pa tudi študentom bibliotekarstva.

Ob zagonu sredi julija 2011 je korpus poskusno zajel 25 slovenskih strokovnih bibliotekarskih besedil z okrog 380 tisoč besedami in eno samo funkcijo - konkordance. Ob zaključku prve faze sredi septembra 2011 so bile uspešno vzpostavljene vse predvidene funkcije, obseg pa je že presegel 1,8 milijona besed iz 234 besedil.

Dopolnjevanje korpusa s skoraj 400 besedili, predvsem članki iz strokovne revije Knjižnica, je leta 2012 sofinanciralo Ministrstvo za izobraževanje, znanost, kulturo in šport v okviru Javnega razpisa za sofinanciranje projektov, namenjenih predstavljanju, uveljavljanju in razvoju slovenskega jezika v letu 2012 - JPR-UPRS-2012. To nam je omogočilo vključitev skoraj vseh danes v elektronski obliki dostopnih člankov iz te strokovne revije in popolno pokrivanje letnikov od 1997 do 2011, kot zanimivost pa še 22 člankov iz prvega letnika, ki je izšel 1957. Z dodanimi več kot 1,8 milijona besedami se je obseg korpusa podvojil in danes presega 3,6 milijona besed.

BesedilBesed
     Celotni korpus 625     3.660.900     
     Doktorske disertacije 4     215.000     
     Magistrska dela 21     596.000     
     Diplomska dela 17     319.000     
     Revija knjižnica 453     1.956.000     
     Organizacija znanja 31     102.000     
     Knjižničarske novice 21     40.000     
     Prispevki v zbornikih 59     212.000     
     Drugi članki in sestavki 9     13.900     
     Monografske publikacije 10     207.000     

Selektivni seznam potencialno zanimivih besedil obsega še okrog 150 doslej objavljenih enot. Korpus bo vključeval samo objavljena besedila, ki so že dosegljiva v elektronski obliki. Poudarek bo na zajemu besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi starejša. Vsekakor bo velika skrb veljala tudi vključevanju najnovejših spletno dostopnih besedil. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil v elektronski obliki.

Programska oprema in postavitev korpusa

Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil EVA in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

Avtorske pravice

Upoštevana besedila niso v korpusu dostopna niti v izvirni obliki niti v celoti, za uporabnike so izdelane le hipertekstne povezave na izvirno objavo (npr. dLib.si, arhiv revije Knjižnica ipd.). Besedila so uporabljena samo za izdelavo kumulativnih statističnih kazalcev jezika, npr. za sezname besed ali besednih zvez s pogostnostjo, in v konkordančnih seznamih, vendar tudi tam le v obliki ožjega citata ne več kot treh povedi - tekoče povedi, povedi pred njo in povedi za njo. Korpus torej ne posega v avtorske pravice piscev besedil ali založnikov. Kjer prispevki niso prosto dostopni, je zato povezava narejena samo na naslovno stran časopisa (npr. nekaj objav v Knjižničarskih novicah), kadar je zbornik objavljen v eni sami datoteki, je za vsakega od prispevkov povezava na celoten zbornik.

Izključni nosilec avtorskih pravic za uporabljene programske rešitve je dr. Primož Jakopin.

Korpus bibliotekarstva je zasnoval in pripravil Ivan Kanič, korpus je javno in brezplačno dostopen na spletu pod pogoji licence CC.

Creative Commons licenca
To delo je ponujeno pod
Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 3.0 Nedoločena licenco

Dopolnjeno 7. oktobra 2012