作者归档:gerry

自动化机器翻译小试

今年过年的时候,网站服务器意外升级了。新版的PHP不再支持我过时(4.x)的WordPress(WP)系统。以前部署的html服务也大多无法使用。只好借此机会对网站做全面升级。WP系统更新相对容易。不过以前的主题和插件大都不兼容新版系统,不得不寻找新的替代品。折腾了几天之后,网站总算能用了。只有相册系统没找到特别合适的方案。WP的相册插件有很多,可是免费的效果不好,收费的插件又过于复杂。我之前用的NextGEN 图库,体验并不算好,想借着这次升级弄得顺眼些。

Internet Archive中收录的相册页面存档


于是去找开源的解决方案,发现zenphoto看起来简洁清爽,似乎很合适。就在Linux下用XAMPP部署测试了一下(虽然也有docker镜像,但总觉得调试起来比较麻烦),功能设计都很顺手,只是最新版没有中文翻译。我看了一眼zenphoto的本地化文件,发现有个3年前的香港译本,觉得更新一下也花不了多少时间。后来我才意识到自己虽然已经不年轻了,可还是会把问题想得太简单……

继续阅读

线型拟合的置信带绘制

在数据分析过程中,我们经常会遇到线型拟合问题。标准的做法是用最小二乘法(least-squares method)来计算相关系数,用协方差矩阵(covariance matrix)估计误差。不过这是在假定所有数据点都是绝对精确的情况下才成立。而在实际工作中,测量值不可避免地带有误差,忽略这些误差显然会低估相关系数的误差。那么该如何合理考虑数据点的误差,并绘制相应的置信带(confidence band,表示拟合函数的可能出现范围)呢?这里我们借助Python中的相关函数来看一下。

继续阅读

2021年天文学研究趋势初分析

2021年总算过去了。虽然疫情还没有结束的迹象,但是人们已经开始习惯新冠环伺的生活。疫情对社会带来的长期影响也在慢慢显现。2021年全世界天文学家提交到论文预印本Arxiv上的天文学论文数量只有13243篇,比2020年少了1577 篇(下降10.6%,甚至少于2018年的提交数)。这是自1994年arxiv开设天文学学科分类以来年度提交论文总数的第一次下降。我们在疫情的影响下被迫放慢了探索宇宙的脚步,但并未停止前进,毕竟连推迟了14年的韦布空间望远镜都发射成功了。

arxiv天文(astroph)论文收录数
继续阅读

编辑器SciTE介绍

Editor
虽然已经2020年了,我还是和二十多年前一样,用着老式的文本编辑器撰写程序和文档,然后在命令行下运行调试。对我来说,一个顺手的通用文本编辑器至少应该满足下面几个条件:

  1. 使用能区分O和0,I和l的等宽字体;在这一点上,最常用的中文字体宋体和黑体都不够友好
  2. 支持主流编程语言的语法高亮,可自行增加对小众语言的支持;
  3. 能够显示空格,制表符,换行符等空白字符;
  4. 查找替换支持正则表达式(Regular Expression);
  5. 占用资源小,支持操作GB级大文件;
  6. 支持调用自定义脚本;

在Windows下,我用了很多年的Emeditor,后来工作环境迁移到Linux系统下,用不惯vim和emacs,就一直用SciTE将就。时间一长,也逐渐适应了这个轻巧的工具。它是作为开源编辑器框架Scintilla的示例软件开发的,完成度不高,配置和扩展都不够友好。不过这个框架本身自由度很高。许多著名的轻量编辑器都是基于它开发的,例如Notepad++Geany等。后来随着计算机硬件性能的升级,拥有更多时髦功能的Sublime Text, Atom或者VSCode等编辑器得到了更多的关注。也许SciTE看上去有些过时。但作为一款仅有2M大小的跨平台开源软件,它有着更少的资源占用和更快的响应速度。除了对字符集的识别不那么智能,以及不支持跨行搜索之外,我还真找不到更换它的理由。这里整理了一些使用和配置的经验,方便有一定编程基础的中文用户参考。

继续阅读

rime拆字词库

中州韵Rime是佛振开发的一款跨平台的开源输入法。支持拼音,双拼,五笔,仓颉等多种输入方案的简繁输入。我在Linux下使用多年,稳定朴素,体验很好。在MintLinux(Ubuntu)命令行下直接用apt安装fcitx-rime包即可。和大多数Linux下的开源软件一样,rime没有完整的图形化配置界面。它的各项配置由 .config/fcitx/rime 目录下的一系列文件控制。 明月拼音·简化字 方案的用户自定义配置文件为luna_pinyin_simp.custom.yaml ,可定义扩充词库、加载自定义符号库、模糊拼音等。具体的初始设置过程可以参考这篇文章
rime2
我因为经常有字不知道拼音无法输出,偶尔会想念其他平台软件提供的拆字输入法。于是干脆为Rime做了一个拆字词库。基本思路是将汉字拆开成不同部分,然后将各个部分转化为拼音即可。借助现成的汉语拆字字典(包含17803汉字,共27603种拆法)和汉字拼音转换工具(Python 版),很容易完成。具体代码如下:
继续阅读