线型拟合的置信带绘制

在数据分析过程中,我们经常会遇到线型拟合问题。标准的做法是用最小二乘法(least-squares method)来计算相关系数,用协方差矩阵(covariance matrix)估计误差。不过这是在假定所有数据点都是绝对精确的情况下才成立。而在实际工作中,测量值不可避免地带有误差,忽略这些误差显然会低估相关系数的误差。那么该如何合理考虑数据点的误差,并绘制相应的置信带(confidence band,表示拟合函数的可能出现范围)呢?这里我们借助Python中的相关函数来看一下。

继续阅读

2021年天文学研究趋势初分析

2021年总算过去了。虽然疫情还没有结束的迹象,但是人们已经开始习惯新冠环伺的生活。疫情对社会带来的长期影响也在慢慢显现。2021年全世界天文学家提交到论文预印本Arxiv上的天文学论文数量只有13243篇,比2020年少了1577 篇(下降10.6%,甚至少于2018年的提交数)。这是自1994年arxiv开设天文学学科分类以来年度提交论文总数的第一次下降。我们在疫情的影响下被迫放慢了探索宇宙的脚步,但并未停止前进,毕竟连推迟了14年的韦布空间望远镜都发射成功了。

arxiv天文(astroph)论文收录数
继续阅读

编辑器SciTE介绍

Editor
虽然已经2020年了,我还是和二十多年前一样,用着老式的文本编辑器撰写程序和文档,然后在命令行下运行调试。对我来说,一个顺手的通用文本编辑器至少应该满足下面几个条件:

  1. 使用能区分O和0,I和l的等宽字体;在这一点上,最常用的中文字体宋体和黑体都不够友好
  2. 支持主流编程语言的语法高亮,可自行增加对小众语言的支持;
  3. 能够显示空格,制表符,换行符等空白字符;
  4. 查找替换支持正则表达式(Regular Expression);
  5. 占用资源小,支持操作GB级大文件;
  6. 支持调用自定义脚本;

在Windows下,我用了很多年的Emeditor,后来工作环境迁移到Linux系统下,用不惯vim和emacs,就一直用SciTE将就。时间一长,也逐渐适应了这个轻巧的工具。它是作为开源编辑器框架Scintilla的示例软件开发的,完成度不高,配置和扩展都不够友好。不过这个框架本身自由度很高。许多著名的轻量编辑器都是基于它开发的,例如Notepad++Geany等。后来随着计算机硬件性能的升级,拥有更多时髦功能的Sublime Text, Atom或者VSCode等编辑器得到了更多的关注。也许SciTE看上去有些过时。但作为一款仅有2M大小的跨平台开源软件,它有着更少的资源占用和更快的响应速度。除了对字符集的识别不那么智能,以及不支持跨行搜索之外,我还真找不到更换它的理由。这里整理了一些使用和配置的经验,方便有一定编程基础的中文用户参考。

继续阅读

rime拆字词库

中州韵Rime是佛振开发的一款跨平台的开源输入法。支持拼音,双拼,五笔,仓颉等多种输入方案的简繁输入。我在Linux下使用多年,稳定朴素,体验很好。在MintLinux(Ubuntu)命令行下直接用apt安装fcitx-rime包即可。和大多数Linux下的开源软件一样,rime没有完整的图形化配置界面。它的各项配置由 .config/fcitx/rime 目录下的一系列文件控制。 明月拼音·简化字 方案的用户自定义配置文件为luna_pinyin_simp.custom.yaml ,可定义扩充词库、加载自定义符号库、模糊拼音等。具体的初始设置过程可以参考这篇文章
rime2
我因为经常有字不知道拼音无法输出,偶尔会想念其他平台软件提供的拆字输入法。于是干脆为Rime做了一个拆字词库。基本思路是将汉字拆开成不同部分,然后将各个部分转化为拼音即可。借助现成的汉语拆字字典(包含17803汉字,共27603种拆法)和汉字拼音转换工具(Python 版),很容易完成。具体代码如下:
继续阅读

我与ADS

newlogo

ADS是美国天体物理数据系统(The SAO/NASA Astrophysics Data System)的缩写。我第一次知道这个系统是在15年前。当时我因为要做文献综述而大量检索论文。物理学科期刊对论文下载权限和数量的限制带来诸多不便,历史文献分散在各地也令人发愁。我偶然被搜索引擎带到ADS网站,发现天文学科的论文数据竟然如此便捷开放。这个囊括了世界各国天文期刊、台刊、年报、会议文集、甚至图书信息的数据库居然不需要注册就能随意检索,而且其中绝大部分文章可以直接下载全文!那时的我觉得这就是世界大同的模样。正是折服于这个网站所展现出来的开放与友好,我对天文这个学科好感倍增,并最终成为其中的一员。

继续阅读