利用機器學(xué)習(xí)量化研究發(fā)現(xiàn),天文學(xué)領(lǐng)域的引用率對女性不利
一項利用機器學(xué)習(xí)對性別歧視進行量化的研究發(fā)現(xiàn),天文學(xué)領(lǐng)域的引用率對女性不利。據(jù)蘇黎世瑞士聯(lián)邦理工學(xué)院的研究人員估計,由于性別歧視,和男性相比,第一作者為女性的論文引用率要低10%左右。
引用模式上的性別差異此前在科學(xué)界有據(jù)可查。不過,研究人員之前并未試圖對有多少差異是性別歧視導(dǎo)致的結(jié)果進行量化。比如,男性和女性可能發(fā)表不同類型的論文;女性可能在不同的科學(xué)領(lǐng)域工作,并且擁有資歷較淺的職位。
這篇尚未接受同行評議但已在預(yù)印本服務(wù)器arXiv上發(fā)表的最新文章,試圖解釋并修正這些因素。文章作者拒絕就論文發(fā)表評論,因為他們希望將其提交給《自然—天文學(xué)》雜志發(fā)表。不過,其他專家表示,分析看上去很可靠。
“這篇文章的新穎之處在于,打破了認(rèn)為引用上的性別差異可能歸因于論文的具體內(nèi)容而非性別的神話。”美國印地安那大學(xué)伯明頓分校信息學(xué)家Cassidy Sugimoto表示。
研究人員分析了1950~2015年發(fā)表在5本期刊上的20萬篇論文。首先,他們訓(xùn)練機器學(xué)習(xí)算法精確地計算出每篇第一作者為男性的論文的引用率。這個過程利用了盡可能多的和性別無關(guān)的因素,比如論文發(fā)表的期刊、領(lǐng)域和年份,第一作者所處的位置以及發(fā)表論文已有多少年。
隨后,他們讓算法分析第一作者為女性的論文。和第一作者為男性的論文相比,這部分文章(自1985年起)的實際引用率低6%左右。不過,該算法預(yù)測,這些論文本應(yīng)再獲得4%的引用率。
研究人員表示,這是他們在“衡量性別歧視方面所做的最好努力”,但他們的結(jié)果應(yīng)當(dāng)被謹(jǐn)慎對待,因為該算法可能還需要將其他因素考慮進來。