dinsdag 20 oktober 2015

Inzoomen op de outliers.

Geregeld sprak ik hier over de trefwoorden en hun rol in trefwoordnetwerken. Ik liet grafiekjes zien van netwerken op basis van de brugfunctie die trefwoorden kunnen vervullen in netwerken (betweenness), over de veronderstelde invloeden van een trefwoord in een netwerk (eigenvector), over trefwoordmanifestaties in de OPC, Plinklets etc.

De gedachte is dat trefwoorden met een hoge betweenness en / of eigenvector waarde een -zeg- meer belangrijke rol spelen in het trefwoordnetwerk. Dit lijkt bevestigd te worden door het grove, oorzakelijke verband dat tussen beide waarden kan worden aangetoond. Zonder naar een beeld van een dergelijk netwerk te kijken weten wij al dat de geografische trefwoorden uit de aard der zaak een dergelijke rol zullen spelen. Dat komt, omdat dit soort trefwoorden eigenlijk overal kunnen opduiken: Nederland en piraterij, Nederland en familie recht, Nederland en terrorisme. Binnen een netwerk van aan elkaar gerelateerde onderwerpen vervuilen de geografische aanduidingen eigenlijk of, anders geformuleerd, zijn zij van een andere orde. In het navolgende heb ik daarom de geografische trefwoorden uitgefilterd. Bovendien beperk ik mijzelf in eerste instantie tot gegevens uit de maand augustus.

De vraag: "Welke zijn nu de trefwoorden die een relatief hoge betweenness en eigenvector waarde hebben?" is met behulp van de programma's Gephi en  R vrij eenvoudig te beantwoorden. Eerder zei ik al dat er een oorzakelijk verband is tussen de betweenness en eigenvector waarden: een hoge eigenvector waarde heeft bij hetzelfde trefwoord ook een hogere betweenness waarde en omgedraaid. Per trefwoord kunnen de verhoudingen overigens wel verschillen. Als je beide waarden in een grafiek uitzet dan zie je dus een denkbeeldige lijn tussen de trefwoorden door van grofweg linksonder naar rechtsboven. In de gegevens hieronder worden alleen hogere betweenness en eigenvector waarden meegenomen, maar niet de allerhoogste, die van Human rights of European Union bijvoorbeeld. Alle waarden meenemen levert een volledig volgelopen grafiek op, want dan duiken ook de trefwoorden op met wel heel lage waarden.


Links op de y-as zien we een niet realistische aanduiding van de getalswaarden. Ik heb de waarden opgerekt met een factor 8 om een betere vlakverdeling zichtbaar te maken. Op de x-as staat een wetenschappelijke notatie van hele lage eigenvector waarden. Deze waarden worden altijd in heel lage waarden aangeduid, vandaar. Iedere punt is een trefwoord.

Als ik nu in R instel dat we drie clusters moeten aanwijzen op basis van de eigenvector waarden dan resulteert dat in het volgende plaatje.



Programma R groepeert dus zoals getoond. Met het oog op eerste grafiek zou de mens wellicht meer clusters herkennen, maar ik heb heel expliciet aangegeven dat we met drie clusters werken. Toch is nu al te concluderen dat er meer trefwoorden met een lagere eigenvector- en betweennesswaarden zijn (zwart) dan trefwoorden met hogere waarden. Dat is niet verrassend natuurlijk. Als we hetzelfde doen, maar dan met betweennesswaarden dan ziet dat er zo uit.

Het vraagt een aparte studie om de clusters met elkaar te vergelijken en bijvoorbeeld eens te kijken naar de overlap in het groene cluster hierboven en het rode cluster in de grafiek daar weer boven. Maar het is natuurlijk ook mogelijk om te bekijken in hoeverre de clusters kleur krijgen als de aantallen manifestaties van de trefwoorden als leidraad voor de clustering worden genomen. En dat gebeurt hieronder.

De positie van het trefwoord in de grafiek wordt dus bepaald door de beide waarden, de kleur door het aantal. En dan is links onder ineens interessant, want het is vooral daar dat een zekere vermenging optreedt. Rood=300-1000, groen=1000-1250 en zwart=1250-3000 manifestaties. De groene stippen helemaal links, die gezien de aantallen manifestaties in relatie tot hun positie in de grafiek opvallend zijn, zijn de volgende trefwoorden (met * de trefwoorden die altijd opduiken) en hun aantallen:

Augustus:
Foreign direct investment - 1158, *Public international law - 1138, *Private International Law - 1127, *International criminal law - 1022, *International law - 1005
Wie had dat gedacht? Een relatief lage brugfunctie, een relatief lage invloed op de omgeving, waardoor kan dan de rol van het trefwoord 'Foreign direct investment' in de maand augustus 2015 worden verklaard?

De situatie in juli:
*International law - 1488, *Public international law - 1425, *United Nations - 1216

In juni:
*International criminal law - 960, *International humanitarian law -743, *Public international law - 739, Environmental protection - 626

In mei:
*International criminal law - 1047, *International humanitarian law - 906, *United Nations - 831, *International law - 795

In februari:
*International criminal law - 878, *International law - 794, *International humanitarian law  - 724, Terrorism - 608 (Hebdo?), *United Nations - 591, Environmental protection - 507

In januari duikt Terrorism net op in de grafiek en dat wordt doorgezet in februari (Hebdo?). Verder zien we in twee maanden het trefwoord 'Environmental protection' opduiken als opvallende manifestatie. Niet de belangrijkste, maar wel een belangrijke in het oog springende manifestatie.

De vraag is nu, is er op basis van bovenstaande een maandelijks 'belangstellingen profiel' samen te stellen of niet? En wat betekent dat dan voor de bibliotheek?