| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • Get control of your email attachments. Connect all your Gmail accounts and in less than 2 minutes, Dokkio will automatically organize your file attachments. You can also connect Dokkio to Drive, Dropbox, and Slack. Sign up for free.

View
 

Indikatorkritik-og-Goodhart's-lov

Page history last edited by Claus Emmeche 9 years, 8 months ago

 

Indikatorkritik

Den 29. okt. 2010 udkommer et nyt nummer af tidskriftet Kritik, som indeholder denne artikel:

 

Sune Auken og Claus Emmeche (2010): "Mismåling af forskningskvalitet. Sandhed, relevans og normativ validitet i den bibliometriske forskningsindikator", Kritik nr. 197, s. 1-12. (download preprint).

 

Forfatterne udsender i den anledning fgl. pressemeddelelse:

 

"Ministeriet for Videnskab, Teknologi og Udvikling har brugt store ressourcer på at udvikle "en indikator" til måling af den danske forskning, men den målestok er en fiasko, viser to forskere i en undersøgelse, som i morgen offentliggøres i tidsskriftet KRITIK. Claus Emmeche og Sune Auken, begge fra Københavns Universitet har igennem længere tid fulgt tilblivelsen af VTUs målingssystem og fremlægger nu en undersøgelse, som viser, at det ikke er i stand til meningsfuldt at måle, hvad der foregår i den danske forskningsverden.

Systemet forsøger at kvantificere den danske forskning med lethåndterbare pointkategorier, men det er en misforståelse, siger Claus Emmeche, "for kvalitet har intet har at gøre med metermål eller på en forhånd fastsat inddeling i point eller høj- versus lav-niveau tidskrifter." Derfor kommer målingen også til at hvile på absurde præmisser. "Fx er det en nødvendighed at alle i samme tidsskrift er lige gode, hvis det skal give mening, at de alle udløser samme pointscore", supplerer Sune Auken. Slutresultatet er, at der ingen meningsfuld forbindelse er imellem det tal, forskningsbarometeret viser, og den forskning, der udføres i landet. Tallet afspejler ikke virkeligheden.

Derfor bliver det også skadeligt, når videnskabsministeriet vil bedømme og belønne universiteterne efter, hvor højt de scorer på forskningsindikatoren. Claus Emmeche forklarer "Det er ligesom debatten om skoletest: Hvis det bliver offentligt, på hvilke skoler eleverne klarer sig bedst efter bestemte kriterier, vil lærerne begynde at terpe de ting, der giver eleverne højt score, og så vil andre ting falde væk. Det samme her: hvor institutlederne beder forskerne rette blikket stramt imod at score højst muligt på DBF rykker selve formålet med forskning - at producere ny, grundlæggende, eller nyttig viden - sig bort fra det og henimod at producere artikler der scorer højt. De to mål er simpelthen ikke ens. Måleapparatet ændrer de formål, systemet styrer efter."

Selv det ministerielle faglige udvalg, der er med til at udvikle den nye forskningsmålestok, har advaret imod dens misbrug på lavere niveauer, som fx til bedømmelse af forskningskvaliteten på de enkelte afdelinger eller institutter, men der er intet i modellens implementering, der vil forhindre det misbrug. Modellen vil bidrage til at mindske den kollektive forskningsfrihed for de enkelte videnskabelige felter. Forskningsfriheden gælder nemlig også friheden til kollegialt at forvalte forskningens anliggender i bredere forstand, dvs. ressourcefordeling, uddannelse af nye forskere, nyrekruttering, prioritering, publiceringskanaler mv."

 

Den problematik, pressemeddelelsen hentyder til, at selve målingen af et socialt system, ikke er noget ydre for systemet men bliver en del af dette og ændrer dets dynamik (el. "incitamentstruktur"), kendes også under betegnelsen Goodharts lov.

 

 

Goodhart's law

På Michael McIntyre's webpage (www.atm.damtp.cam.ac.uk/mcintyre/papers/LHCE/goodhart.html) kan man finde denne forklaring af loven: 

 

The original form of Goodhart's law arose in economics. According to the 99th edition of Pears Cyclopaedia (1990--1, pp. G 27, G31), the law states that

  • `As soon as the government attempts to regulate any particular set of financial assets, these become unreliable as indicators of economic trends.'

This, of course, is because `financial institutions can... easily devise new types of financial assets.'

 

Professor Charles Goodhart FBA was Chief Adviser to the Bank of England. The Bank used to have a web page about him at www.bankofengland.co.uk/cvs/goodhart.htm, giving his own statement of the law, as published in his book Monetary Theory and Practice, page 96:

  • `Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes.'

 

Professor Marilyn Strathern FBA, following Hoskin (1996, see below), has re-stated Goodhart's Law more succinctly and more generally:

  • `When a measure becomes a target, it ceases to be a good measure.'

 

Goodhart's law is a sociological analogue of Heisenberg's uncertainty principle in quantum mechanics. Measuring a system usually disturbs it. The more precise the measurement, and the shorter its timescale, the greater the energy of the disturbance and the greater the unpredictability of the outcome.

See also the extended discussion by Keith Hoskin (1996) (The `awful idea of accountability': inscribing people into the measurement of objects), in R. Munro and J. Mouritsen (eds.), Accountability: Power, ethos and the technologies of managing, London, International Thomson Business Press, 265-282. Hoskin's article illustrates the wide applicability of Goodhart's law, and provides an illuminating historical discussion of what `accountability' has come to mean today. Strathern's discussion appears in her 1997 article `Improving Ratings': Audit in the British University System, European Review 5, 305-321.

 

Der henvises også til loven i denne artikel:

Douglas N. Arnold and Kristine K. Fowler (2010): "Nefarious Numbers", arXiv:1010.0278v2 (link),

som omhandler impact factors og hvordan de kan manipuleres. (Tak til Inge Henningsen for henlede opmærksomheden på denne).

Journal Impact Factors har relevans også her i forbindelse med den bibliometriske forskningsindikator, al den stund at til konstruktion af denne benytter nogle faggrupper impact factor (IP) som støtte for deres ranking af tidskrifter. Forfatterne forsøger at gå bag om visse tidskrifter med meget høje impact faktorer, fx the International Journal of Nonlinear Science and Numerical Simulations (IJNSNS), og finder, at for fx dette tidskrift er der en voldsom kløft mellem astronomisk høj impact factor og et relativt mellem-niveau omdømme af tidskriftet blandt eksperter. Hvorfor denne kløft? Fordi, dokumenterer Arnold & Fowler, tidskriftet IJNSNS redigeres af redaktører, der aktivt citerer tidskiftets artikler endog aldeles hyppigt, i modsætning til lignende tidskrifter indenfor samme fagfelt, som rangerer højere i omdømme, men lavere i IP-faktor. ("The top-citing author to IJNSNS in 2008 was the journal's Editor-in-Chief, Ji-Huan He, who cited the journal (within the two-year window) 243 times. The second top-citer, D.D. Ganji, with 114 cites, is also a member of the editorial board, as is the third, regional editor Mohamed El Naschie, with 58 cites. Together these three account for 29% of the citations counted towards the impact factor.").

Også andre forhold gør sig gældende, nemlig at "The impact factor for a journal in a given year is calculated by ISI (Thomson Reuters) as the average number of citations in that year to the articles the journal published in the preceding two years". To år er meget kort tid, især i felter som matematik, hvor 10 år ville give et mere realistisk billede ("Since the cited half-life (the time it takes to generate half of all the eventual citations to an article) for applied mathematics is nearly 10 years"). Ved at anvende et modificeret IP-mål på seks år vendtes derkomplet op og ned på den placering, som det undersøgte tidskrift IJNSNS havde, i forhold til to nærliggende konkurrenter. Arnold & Fowler konkluderer bl.a.:

"Despite numerous flaws, the impact factor has been widely used as a measure of quality for journals, and even for papers and authors. This has created a strong incentive to manipulate it. As we have demonstrated, it is possible to vastly increase impact factor without increasing journal quality at all. The actions of a few interested individuals can make a huge difference, yet require considerable digging to reveal. The cumulative result is that impact factor gives a very inaccurate view of journal quality. We primarily discussed one extreme example, but there is little reason to doubt that such techniques are being used to a lesser degree by many journals."

 

Essensen af Goodhart's lov er også godt udtrykt af fysikeren og bloggeren Sabine Hossenfelder, som bl.a. siger

"One has to be very clear on one point: metrics are not external to the system. The measurement does affect the system. (...) Commonly known as "perverse incentives" it's what I've referred to as a mismatch between primary goals and secondary criteria: You have a primary goal. That might be fuzzy and vague. It's something like "good research" or "insight" or "improved understanding." Then you try to quantify it by use of some measure. If you use that measure, you have now defined for the community what success means. You dictate them what "good research" is. It's 4 papers per year. It's 8 referee reports and 1 YouTube video. It doesn't matter what it is and how precise you make it, point is that this measure in turn becomes a substitute for the primary goal" (min fremhævning; citeret herfra, læs hele hendes kommentar her).

 

 

 

 

Comments (0)

You don't have permission to comment on this page.