标签归档：code

平面数据点提取脚本

在工作中有时会遇到一些需要从图像中提取数据点的情况。例如文献中展示了图像，却没有给出相应的数据。如果只是定性的比较，不一定需要联系作者索要数据。可以简单地通过一些软件来得到近似的数据。比如老牌的Origin，轻量级的 GetData Graph Digitizer，或者免费的 Graphixy 不过这三个都是Windows下的软件，在Linux/UNIX 和 Mac 下，可以考虑 WebPlotDigitizer ，或者直接使用它的在线版。

我是觉得这个功能不难，就用Python 写了一个脚本，使用pynput模块获取鼠标的屏幕位置，总共也就50行左右的代码。原理是用鼠标的屏幕坐标进行归算，所以图片越大，屏幕分辨率越高，获得的数据精度就会越好。做粗略的比较展示足够了，但要发表还是应该老老实实找原作者请求数据。

继续阅读 →

线型拟合的置信带绘制

发表评论

在数据分析过程中，我们经常会遇到线型拟合问题。标准的做法是用最小二乘法(least-squares method)来计算相关系数，用协方差矩阵(covariance matrix)估计误差。不过这是在假定所有数据点都是绝对精确的情况下才成立。而在实际工作中，测量值不可避免地带有误差，忽略这些误差显然会低估相关系数的误差。那么该如何合理考虑数据点的误差，并绘制相应的置信带(confidence band，表示拟合函数的可能出现范围)呢？这里我们借助Python中的相关函数来看一下。

继续阅读 →

rime拆字词库

7条回复

中州韵Rime是佛振开发的一款跨平台的开源输入法。支持拼音，双拼，五笔，仓颉等多种输入方案的简繁输入。我在Linux下使用多年，稳定朴素，体验很好。在MintLinux(Ubuntu)命令行下直接用apt安装fcitx-rime包即可。和大多数Linux下的开源软件一样，rime没有完整的图形化配置界面。它的各项配置由 .config/fcitx/rime 目录下的一系列文件控制。 明月拼音·简化字 方案的用户自定义配置文件为luna_pinyin_simp.custom.yaml ，可定义扩充词库、加载自定义符号库、模糊拼音等。具体的初始设置过程可以参考这篇文章。
rime2
我因为经常有字不知道拼音无法输出，偶尔会想念其他平台软件提供的拆字输入法。于是干脆为Rime做了一个拆字词库。基本思路是将汉字拆开成不同部分，然后将各个部分转化为拼音即可。借助现成的汉语拆字字典（包含17803汉字，共27603种拆法）和汉字拼音转换工具（Python 版），很容易完成。具体代码如下：
继续阅读 →

Ubuntu下配置触屏笔记本

3条回复

自苹果公司在2007年发布iPod Touch以来，触控操作迅速席卷了移动领域，成为最流行的交互方式，众多硬件厂商趋之若鹜，触控显示器、触控笔记本层出不穷。而始作俑者苹果公司在这场狂热中压根就没推出过桌面级的屏幕触控设备（ipad就是个娱乐终端）。另一方面，传统的操作系统领域也没有兴起多大波澜。最早有志于统一桌面的Unity已黯然退场；首次支持触控的Windows 8 被市场否定，Windows 10又改回经典界面；软件厂商观望了一阵，看桌面领域没什么赚头，就纷纷开发App去了。人们发现，磨合了三十多年的鼠标键盘工作流并不能简单地被手指替代，哪怕是十指触控。硬件虽好，但缺乏系统和软件的支持也只能做个噱头。

x1yoga 新版Win10针对触控操作做了许多优化，可以为平板提供足够的支持（在Surface Pro上用Drawboard PDF看论文图书还是很有效率的）。相比之下，Linux的体验就不那么友好了。默认的软件和设置完全无法配合平板形态，需要自行设置和优化。我用的Thinkpad X1 Yoga 在 Mint Linux 18.2 下触控屏手指缩放无效，自带的 Wacom 触控笔灵敏度过高，尚未接触屏幕就直接触发点击，笔的按钮也不能触发右键。好在Linux 下的 Wacom 驱动有着相当完善的接口，这些问题都可以通过修改设置解决，这一点可比Surface方便多了。Linux 下 Wacom 驱动的介绍页面是 http://linuxwacom.sourceforge.net/wiki/ , 其中也包括多点触控屏幕的设置。简单来说，需要关闭驱动的手势控制，启用系统的两点控制来实现自带文件、图片、网站等各类浏览器中的手势缩放；修改电磁笔的触发阈值来修正灵敏度。
继续阅读 →

Python简繁转换

10条回复

简繁转换的工具很多，但始终没有一个完美的解决方案。由于字符之间从来都不是简单的一一对应，不仅一简对多繁的情况大量存在，多简对一繁也屡见不鲜。情况的复杂性由下面几例可见一斑：

头发发展 -> 頭髮發展
萝卜卜卦 -> 蘿蔔卜卦
秒表表达 -> 秒錶表達
晾干乾坤 -> 晾乾乾坤

要正确完成这样的转换，就要在单字对应关系之外加上词组对应。这一点无论Google 翻译，MS Word 或者ConvertZ 基本都可以做到（虚词部分可能稍微困难些）。但两岸相差的不只是字形，还有名称叫法。这一点嘻来嚷往最早的一篇文章中讲的很清楚。转引一个例子：“大衛碧咸在寮國見到了布希”。我第一次看到时完全不知所谓，虽然认得每一个字，还是猜不到这就是“大卫·贝克汉姆在老挝见到了布什”的香港版。要想正确转换这样的句子，就要建立更广泛的简繁词组对照表。也许你会觉得这已经超出了字体转换的范畴，开始接近自动翻译了。但从技术的角度上讲，把“软件”对应为“軟件”,”軟體” 或者 “ruan jian”并没有什么不同，前提是要有一个完善的转换语料库。当然这个前提并不容易满足，因为“所有的规则都有例外“。
继续阅读 →