dinsdag 20 oktober 2015

Inzoomen op de outliers.

Geregeld sprak ik hier over de trefwoorden en hun rol in trefwoordnetwerken. Ik liet grafiekjes zien van netwerken op basis van de brugfunctie die trefwoorden kunnen vervullen in netwerken (betweenness), over de veronderstelde invloeden van een trefwoord in een netwerk (eigenvector), over trefwoordmanifestaties in de OPC, Plinklets etc.

De gedachte is dat trefwoorden met een hoge betweenness en / of eigenvector waarde een -zeg- meer belangrijke rol spelen in het trefwoordnetwerk. Dit lijkt bevestigd te worden door het grove, oorzakelijke verband dat tussen beide waarden kan worden aangetoond. Zonder naar een beeld van een dergelijk netwerk te kijken weten wij al dat de geografische trefwoorden uit de aard der zaak een dergelijke rol zullen spelen. Dat komt, omdat dit soort trefwoorden eigenlijk overal kunnen opduiken: Nederland en piraterij, Nederland en familie recht, Nederland en terrorisme. Binnen een netwerk van aan elkaar gerelateerde onderwerpen vervuilen de geografische aanduidingen eigenlijk of, anders geformuleerd, zijn zij van een andere orde. In het navolgende heb ik daarom de geografische trefwoorden uitgefilterd. Bovendien beperk ik mijzelf in eerste instantie tot gegevens uit de maand augustus.

De vraag: "Welke zijn nu de trefwoorden die een relatief hoge betweenness en eigenvector waarde hebben?" is met behulp van de programma's Gephi en  R vrij eenvoudig te beantwoorden. Eerder zei ik al dat er een oorzakelijk verband is tussen de betweenness en eigenvector waarden: een hoge eigenvector waarde heeft bij hetzelfde trefwoord ook een hogere betweenness waarde en omgedraaid. Per trefwoord kunnen de verhoudingen overigens wel verschillen. Als je beide waarden in een grafiek uitzet dan zie je dus een denkbeeldige lijn tussen de trefwoorden door van grofweg linksonder naar rechtsboven. In de gegevens hieronder worden alleen hogere betweenness en eigenvector waarden meegenomen, maar niet de allerhoogste, die van Human rights of European Union bijvoorbeeld. Alle waarden meenemen levert een volledig volgelopen grafiek op, want dan duiken ook de trefwoorden op met wel heel lage waarden.


Links op de y-as zien we een niet realistische aanduiding van de getalswaarden. Ik heb de waarden opgerekt met een factor 8 om een betere vlakverdeling zichtbaar te maken. Op de x-as staat een wetenschappelijke notatie van hele lage eigenvector waarden. Deze waarden worden altijd in heel lage waarden aangeduid, vandaar. Iedere punt is een trefwoord.

Als ik nu in R instel dat we drie clusters moeten aanwijzen op basis van de eigenvector waarden dan resulteert dat in het volgende plaatje.



Programma R groepeert dus zoals getoond. Met het oog op eerste grafiek zou de mens wellicht meer clusters herkennen, maar ik heb heel expliciet aangegeven dat we met drie clusters werken. Toch is nu al te concluderen dat er meer trefwoorden met een lagere eigenvector- en betweennesswaarden zijn (zwart) dan trefwoorden met hogere waarden. Dat is niet verrassend natuurlijk. Als we hetzelfde doen, maar dan met betweennesswaarden dan ziet dat er zo uit.

Het vraagt een aparte studie om de clusters met elkaar te vergelijken en bijvoorbeeld eens te kijken naar de overlap in het groene cluster hierboven en het rode cluster in de grafiek daar weer boven. Maar het is natuurlijk ook mogelijk om te bekijken in hoeverre de clusters kleur krijgen als de aantallen manifestaties van de trefwoorden als leidraad voor de clustering worden genomen. En dat gebeurt hieronder.

De positie van het trefwoord in de grafiek wordt dus bepaald door de beide waarden, de kleur door het aantal. En dan is links onder ineens interessant, want het is vooral daar dat een zekere vermenging optreedt. Rood=300-1000, groen=1000-1250 en zwart=1250-3000 manifestaties. De groene stippen helemaal links, die gezien de aantallen manifestaties in relatie tot hun positie in de grafiek opvallend zijn, zijn de volgende trefwoorden (met * de trefwoorden die altijd opduiken) en hun aantallen:

Augustus:
Foreign direct investment - 1158, *Public international law - 1138, *Private International Law - 1127, *International criminal law - 1022, *International law - 1005
Wie had dat gedacht? Een relatief lage brugfunctie, een relatief lage invloed op de omgeving, waardoor kan dan de rol van het trefwoord 'Foreign direct investment' in de maand augustus 2015 worden verklaard?

De situatie in juli:
*International law - 1488, *Public international law - 1425, *United Nations - 1216

In juni:
*International criminal law - 960, *International humanitarian law -743, *Public international law - 739, Environmental protection - 626

In mei:
*International criminal law - 1047, *International humanitarian law - 906, *United Nations - 831, *International law - 795

In februari:
*International criminal law - 878, *International law - 794, *International humanitarian law  - 724, Terrorism - 608 (Hebdo?), *United Nations - 591, Environmental protection - 507

In januari duikt Terrorism net op in de grafiek en dat wordt doorgezet in februari (Hebdo?). Verder zien we in twee maanden het trefwoord 'Environmental protection' opduiken als opvallende manifestatie. Niet de belangrijkste, maar wel een belangrijke in het oog springende manifestatie.

De vraag is nu, is er op basis van bovenstaande een maandelijks 'belangstellingen profiel' samen te stellen of niet? En wat betekent dat dan voor de bibliotheek?

donderdag 16 juli 2015

Some thoughts about subjects

[I wrote an internal memo, which I would like to share on this platform, although some statements were previously published in earlier blogs]

Nowadays libraries operate in a time in which tremendous changes occur. The familiar financial foundation of every library has been removed and replaced by a much more weaker one. The search expertise of library users is, increasingly, becoming a reflection of the search methodology used to do a Google search or a Bing search. Especially the libraries associated to universities and other research facilities strongly present themselves as a participant in performing research; as suppliers and managers of data. And last but certainly not least the type of the collection offered by libraries is rapidly changing, from paper to electronic files made available in any form whatsoever. And as such contributing to difficult technicalities and a legal world which could be described as a world of quicksand.

Nowadays, in this hectic world with budget cuts, it is of the utmost importance for libraries to clearly present themselves and their collections to their users and coming users. And there are a lot of ways to do so. Clear websites, simple but solid library software, being topical and actual, be there where your users are (Facebook, Twitter), connecting to users through the medium of newsletters and alerting systems, etc. Less obvious is to bring parts of the collection in the limelight, including the 'old-fashioned' parts; books and journals. The library of the Peace Palace is one of the libraries which try to draw attention to specific parts of their collections. On a regular basis specific components, called research guides with actual and relevant bibliographical data, are placed in the foreground.

Libraries are also adding subject headings to the standard metadata of their documents, thus enriching the collections they manage. With this extra metadata users are able to locate relevant information in a more specific way. Unfortunately, this effort is not fully used by the patrons in the library. Just a very small percentage of OPAC queries use subject indices and those users who do, hardly never combine different subject headings. So how to increase the 'return on this investment'? I think the supposed disinterest of our users can be attributed to ignorance; most of them simply don't know subject headings exist or at least don't know what can be done with them. I'll give an example to show what I mean. In our search log I detected two different users both searching with the simple word 'genocide'. Both switched the search index from 'title words' to 'all words', so both knew how to use the index system of our library software, but neither of them bothered to search while using the 'subject headings' index, which of course gives a more reliable outcome.

You can try to change this behaviour by simple instruction and/or by showing how our subject headings appear in results after a search. Not by showing how users embed subject headings in their searches -this is hardly done, like I said- but by showing which subject headings appear in a set of results, generated by more common search types. I decided to try the last, so in trying to explain why using subject headings is important, I actually use the end, not the start of this route. The most informative and still compact method of presenting this kind of data is the one which uses an interactive map.

The software to make this possible is Gephi, an open source program, so freely available. Gephi is usually used to visualize strong or even weak relations between persons or websites, but I thought it could be possible with subject headings too. Simply imagine there is a strong relation between the subject headings in the metadata belonging to one document and a weaker relation between the same subject headings belonging to different documents.

The knife cuts both ways if a larger set of results is collected to be used in Gephi. Not only the subjects headings more or less strongly related to one another are shown, also the different subject areas, huge and small, could be visualized. I decided to collect all viewed titles in our OPAC in June 2015. Almost all titles did have subject headings and these subject headings were stored in a file which can be dealt with by Gephi. All in all I collected 2900 different used subject headings (nodes) and 72500 different relations (edges) between these subject headings all with their own weights. (This is not the place to explain the intricacies of Gephi, but, if you really want to know, please search for 'Gephi' on the Internet. There is a lot of information available.)

Creating maps with Gephi is one thing, but making them available on the internet is another. Luckily Gephi allows users to create plugins, which can be used to create different layouts and statistical or relational models. It is also possible to create plugins which can be used to export the maps and building blocks of these maps. The Oxford Internet Institute: http://www.oii.ox.ac.uk/ (University of Oxford) together with JISC:http://www.jisc.ac.uk/about created such a plugin with which it is possible to export relevant data and scripts using just Javascript. So all browsers using Javascript will be able to present clickable maps, no browser extensions needed.

In short, after clicking below mentioned link, you will see smaller clusters of subject headings indicating interest in more specific subject areas like 'Environment' or 'Nato and Ethics', but also some huge clusters referring to more general subjects like 'Human Rights' or 'European Union'. It is possible to zoom in and out using the little zoom toolbar below the map, or to select one cluster for more detailed inspection using the Group Selector (to the left). Clicking one occurence in the map gives a lot of information about the chosen subject heading, like detailed, statistical information about strength or weight and other subject headings with which it was combined (popup to the right). This way it is indicated which subject headings where combined to describe the contents of different but related publications or giving a hint to start searching using combined subject headings with the restrict[] option in our OPAC.

Please visit http://www.peacepalacelibrary.nl/june to see and use the map which gives an overview of the data mentioned above. You need more information? Questions? Contact Aad Janson at a.janson at ppl dot nl