那些被引率最高的论文,都有什么共同点?         怎样的论文更容易被引用,每个导师都有自己的看法,但有可能通过量化的方式描述它们的特征吗?一位研究员用机器学习技术分析了 400 篇高被引论文,发现了一些有趣的规律。

         如何有效地提高我的学术论著影响力,这是我在多年的学术生涯中一直认真考虑的问题。获得博士学位后,我开始更详细地研究这个问题。文献读得越多,我就越意识到这些建议有些不完整,有时甚至相互矛盾。鉴于我在机器学习(ML)领域有一定经验,我决定下载一个数据集,看看能不能应用 ML 技术从中挖掘一些信息,并回答一些相关问题。          一篇研究文章的标题应该多长?          在我们看来,标题能够强调论文的整体目的和研究意义,它发挥着至关重要的作用。先前关于这个问题的研究论文一致同意标题长度的重要性,以及标题对读者或引用率的影响。然而,过去的研究并没有明确指出标题应该使用多少词。在浏览各种类型的 Nature 文章时,我们会很快发现这些文章标题都很短,而且切中要害。接下来,我分析了以下四个数据集:        * 2014 年 Nature 上被引率最高的 100 篇论文(根据 Google Scholar 统计);
       * 2014 年 Web of Science 中被引率最高的 100 篇论文;
       * 2018 年 AltMetric 发布的全球最受关注的 100 篇论文;
       * Multidisciplinary Digital Publishing Institute 网站 2017 年发表的论文中被引率最高的 100 篇。
        数据分析表明,有吸引力的标题具有相对一致的模式,高影响力论文的标题通常较短。具体来说,有吸引力的标题的总长度是 10 个词加减 3 个。在假设“有影响力的标题”常伴随着高引用率的前提下,我通过已发表的数百万篇文章中的 400 篇高引文章(如前文描述)算出了这一范围。有趣的是,有吸引力的标题不一定包含句点或斜线,但是常常使用冒号。         可能吸引读者的标题关键词 也被识别出来,它们是:回顾,癌症,监测,近期,治疗,方法,理论,分析,应用,学习,蛋白质,DNA,多重,新的,联系,健康,研究(review, cancer, monitoring, recent, therapeutic, method, theory, analysis, applications, learning, protein, DNA, multiple, new, association, health, and study)。         一篇文章应该有多少位作者?         我发现被引数和作者数量之间存在相关性,因为高被引论文和低被引论文(的作者数量)之间存在显著差异。与只有一位作者署名的论文相比,多个作者署名的论文似乎从他们的机构、实验室、研究人员和学生那里获得了更多的关注。换言之,每个作者都有自己的圈子,把所有作者的圈子聚集在一起,有相同研究方向的读者数量会增加,进而增加文章被引用的可能性。此外,多位作者署名的论文也可以从自引中获益。直觉上人们也可能会认为,当各种力量联合起来,并且不止一个人对这项工作作出贡献时,研究方法的质量、实验操作的质量、研究经费和论文的质量也会相应提高。         文章多少字符合适呢?         我还发现,高被引论文和低被引论文之间,文章字符数(不包含空格)有显著差异。此外,高被引文章的字符需要超过 33600 个(包括参考文献在内),大约共计 5600 词。这一数字与最具影响力的期刊之一 Nature 接受的词数一致。根据 Nature 最新格式要求,包括参考文献在内,文献字数最多为 6500 字。请注意,Google 指数(H5 指数和 H5 中位数指数)将 Nature 评为 2018 年全球最具影响力的期刊。         文章应该放多少插图?         据我所知,目前的文献还没有对插图的数量进行过调查。根据我的分析结果,高被引论文和低被引论文的图片数量略有不同。分析结果表明,一篇文章中的图越多,被引用的可能性就越大。这可能是因为图表能够快速传递更多的信息,从而帮助读者更快地理解研究结果。开放获取杂志对图的数量不作限制,但是一些其他杂志明确规定了插图数量(这种情况下,可以将多张图合并为一张)。我的分析结果显示,至少需要 6 张图来反映论文的关联程度和影响力,这与 Nature 接受的图的数量相符合。根据 Nature 最新格式要求,展示项(图或表格)的最大数目为 6。         几张表格合适?         和上上个问题一样,据我所知,目前的文献还没有对表格的数量进行过调查。我发现高被引论文和低被引论文之间的表格数量有很大的不同。具体来说,至少需要两张表格来展示研究结果。请注意,这里研究的表格数量与插图数量无关。         使用多少方程式合适?         和上面研究问题相似,据我所知,目前的文献中还没有研究过方程的数目。我发现高被引论文和低被引论文的方程数量没有显著差异。也许这与综述通常比包含方程式的文章更常被引用有关。因此,我们可以根据需要使用方程。         过去关于高阅读量和高引用论文的组成部分的研究解决了一些问题,但并非全部。有时,作者的同行、导师也会给出主观的答案。我的分析研究试图通过客观评估提出建议,这在更彻底全面地研究这一问题迈出了不错的第一步。当然,请注意我在这里提供的建议并不能保证提高被引率。事实上,还有一些更重要的特征可以提高被引用率和整体影响力,比如期刊的声誉、作者的名声、研究工作的原创性、研究主题的重要性、期刊杂志的可获取性(即公开出版还是非公开出版)、文献类型(如文章、综述、通讯等),以及编辑和审稿人的反馈意见质量。