摘要: 【目的/意义】为推动潜在“精品”文献识别及其在科技文献识别与传播利用领域中的应用。【方法/过程】以
国际顶级期刊Science和Nature期刊出版的论文及其引用分布数据为样本,统计出全部论文的首次响应时间、摘要
长度,总被引频次、资金资助、论文篇幅等特征,构建“精品”论文特征矩阵;然后基于“精品”论文特征矩阵和随机森
林算法进行潜在“精品”论文识别模型的训练与识别应用。【结果/结论】研究结果显示,融合“精品”论文特征矩阵和
随机森林模型能够较好地识别 Science 和 Nature 期刊中的潜在“精品”论文,模型正确识别分类的准确率均值达到
80%以上,其中Nature期刊的“精品”文献识别准确率高出Science期刊的“精品”论文识别准确率2%左右;使用信息
增益方法的模型识别效果比使用基尼不纯度方法的识别效果略好。此外,Science和Nature期刊“精品”论文的首次
被引速度极快,在出版当年即被引用。【创新/局限】“精品”文献特征矩阵和机器学习模型的结合能够较好地应用于
潜在“精品”论文的识别与推荐,然而未来需将模型推广应用于海量文献中“精品”论文的识别检验。