用BibTEX输出arXiv

今天检查论文引文格式的时候突然发现所有来对预印本网站ArXiv的引用方式全部出错,因为是用BibTeX自动生成的,赶紧回头检查,发现问题出在ADS的导出格式上,其中对于ArXiv的定位是这样的,如果文章已正式发表,则Journal一项自然为发表刊物,若尚未发表,则为 ArXiv e-prints ,前缀(年+月)即为卷数,后四位即为文章编号(在07年改编号规则之前的文章,刊名加分类名称如 astro-ph 对应ArXiv Astrophysics e-prints,年月照写,无卷数,但也取后四位做文章编号),这样在输出为EndNote格式时就有了差别,已发表的文章arxiv编号同DOI编号并列在一起,虽然无法单独提取但不影响使用,而尚未发表的文章arxiv编号则被拆开,对应某卷某页,这的确是个变通的办法,但是按正常期刊的格式显示出来,怎么都对不了。只有BibTeX输出中多了一个eprint项,单独对应arxiv编号,于是其他导出格式都可以无视了。

接下来要把导出的BibTeX汇总整理,其实最好的办法是在线编辑,在ADS上注册个帐号,建个个人数据库,要用的文章打个勾点一下添加,用的时候按期刊格式一导出,什么麻烦都省了,可咱这儿的网络实在不让人放心……我一直用的Biblioscape这回是真不好用了,说是从7.0开始支持BibTeX,结果导入时主动忽略eprint这一项,改一下导入滤镜倒也不麻烦,可导出总不对我就没有办法了,看来目前的29个patch有希望继续出下去……国产的NoteExpress的情况也与此相同,虽然可以修改输出式样,但总归是绕远了;FF插件Zotero刚跨过1.0,便也找来试了一下,从ArXiv页面导入时将文章号列入期刊名一项,是个很巧妙的做法,虽然不符合Tag规定,但这样就能够不更改样式文件而获得正确输出,可惜没有加 ArXiv 标识,在ADS页面能正常识别已发表的文章,却将尚未发表的识别为网页,这样的话,就只有 JabRef 能够兼容这些少见的Tag,因为它就是基于bib文件操作的,不认识的标签就按照字母顺序往后排,原样输出。

有了合适的bib文件,剩下的就是格式化输出,但我用的式样文件(apj.bst)也不支持eprint项,只有自己hack了,还好找到了南大邹远川对此提供的解决方案,不过由于南大天文系主页改版,原始链接早已失效,现在只能看到两篇转载

首先要在bst开头的ENTRY区块中声明eprint标签,然后找到下面这段规定article引用样式的部分,这里给出的是邹远川修改的版本(添加的语句用蓝色高亮显示):

FUNCTION {article}
{ output.bibitem
  format.authors "author" output.check
  author format.key output
  name.or.dash
  format.date "year" output.check
  date.block     % 输出年份
  eprint missing$  % 判断是否包含eprint项
  {
    crossref missing$  %判断是输出交叉引用
    { journal       % 输出期刊名
      "journal" output.check
      format.vol.num.pages output  % 输出卷数
    }  %情况一
    { format.article.crossref output.nonnull
      format.pages output  %输出交叉引用所在页
    }  %情况二
  if$  %根据判断结果插入相应区块
  format.journal.pages  %输出文献所在页
  }
  {eprint output}  % 输出arxiv地址
  if$
  format.note output
  fin.entry
}

其中的 expr$ {#1}{#2} if$ 是bst文件的判断模块,如果前面的表达式expr内容为真,则if$部分取#1,如果为假则取#2,这样,外层循环的意思就是如果包含eprint项就只输出eprint,如果不包含就正常输出,但许多已发表的文章也会带有eprint项,这样反倒无法正常输出了。我基于这样一个判断:从ADS导出的已发表论文都带有pages项,否则就有eprint项,修改相应段落如下:

  
  date.block
  crossref missing$   
    { journal    
      "journal" output.check
      pages empty$   %判断是否包含页面项
        {eprint output}  % 输出eprint项
        {format.vol.num.pages output} %正常输出
      if$
    }  
    { format.article.crossref output.nonnull
      format.pages output   
    }  
  if$  
  format.journal.pages  
  format.note output

这样期刊名称始终输出,已发表的文章不带ArXiv地址,预引的文章没有年份卷号,页数项非空则有输出,这样07年之后的预印本输出为 “ArXiv e-prints, YYMM.NNNN”,06年之前的则是“ArXiv Astrophysics e-prints, astro-ph/YYMMNNN”,问题算是解决了,如果对输出格式有不同的要求可以在此基础上自行修改,关于bst的基本知识可以在CTeX的\CTeX\texmf\doc\bibtex目录下找到基础文献btxbst.doc ,btxdoc.dvi和btxhak.dvi,个人推荐Nicolas Markey所写的Tame the BeaST:The B to X of BibTEX (CTAN仓库提供源文件下载),讲的比较详细。

最后需要提醒的是,ADS输出的是BibTEX是编译好的bbl文件,也就是不用BibTEX时的thebibliography 区块,如果事先定义好了输出样式,直接用latex编译两次就可以了,如果再用BibTEX就会被自动覆盖了……不过我还是习惯用JabRef处理一遍,重新生成BibTEX Key,删除一下Abstract什么的:)

订阅评论
提醒
7 评论
最旧
最新 最多投票
内联反馈
查看所有评论
xin
2009 年 11 月 15 日 16:59

你好,请问一下,怎么用jabref搜索arxiv上的文献,总是弹出什么malformed之类的错误提示,spires什么的倒是都指定了格式,唯独arxiv不知道为什么不能搜索。

2010 年 1 月 27 日 08:57

好文好文啊 赶文章

F
2010 年 4 月 27 日 00:08

转载也没了……
你直接给个能用的吧BST

Lynchbeck
2010 年 6 月 19 日 10:39

请问如何将Zotero中的文献库导入到JabRefz中?我从Zotero中导出的BIB格式,Jabref死活认不出……

2010 年 7 月 23 日 15:36

[…] 牛人写文章起点都比较高。但是不容易操作。 我给一个apj的 模板 […]