标签归档:chinese

Ubuntu 下面用ibus在opera中输入中文

在ubuntu 下面安装了opera后,然后安装了ibus,但却发现不能输入中文,然而ibus却可以在其它程序中输入中文的。经过调查发现,原因有二:

  • 1. opera的快捷键与ibus快捷键冲突。 我的ibus启用快捷键是ctrl + space, 而opera的这个快捷键默认会打开home page。
  • 2. ibus 输入法变量没有导出,opera得不到输入法参数。

网上很多人都找到了原因出在这里,但却有很多方案无法解决问题。经过很多试验,下面方案可以解决输入问题:

  • 1.打开Opera–>Tools –> Preferences, 打开Andvanced 选项卡,在右侧点击 Shortcut, 点击右侧Keybord-Setup旁边的Edit按钮,在弹出的对话框最上面搜索栏输入
    Space, 在下面的结果栏找到 Space ctrl, 然后删除它。如果您的ibus启用快捷键是别的,对应删除冲突即可。
  • 2.创建sh文件 ibus.sh, 输入下面内容,

     

    export QT_IM_MODULE=xim
    export XMODIFIERS="@im=ibus"

    保存,然后 执行 sudo cp ibus.sh /etc/profile.d/

    再次执行 sudo chmod +x /etc/profile.d/ibus.sh

    注销登录,重新登录后 可以试试是否好用。对于其它版本linux也可相应解决。

    我的相关软件版本信息:
    ubuntu 10.04 64位,英文语言环境

    ibus 1.3.9

    opera 11.51 64位

n-Gram splitter

While we process chinese, we need to split chinese sentences into chinaese words,a statistical algorithm is N-Gram split algorithm, which needn’t dictionary. 2-gram is very easy to implemente,but the algorithm becomes complex while n > 2. Now, I have implemented the prototype of 2-gram, I will implement the algorithm n-gram while n >2 and HMM algorithm.These algorithms are very useful on finding new words.
Oyeah!

N-Gram转移概率计算中的若干问题

这几天晚上,我对2-gram时计算词的转移概率的程序进行了优化,现在已经可以在100秒内完成30000多字的文本的预处理到并计算词长1到4时的转移概率了。当得到这样的测试结果时,自己竟兴奋的久久不能关机入睡眨眼:) 在优化过程中,主要是避免不必要得重复查找,对一些词的查找采用了新的算法,还有就是,log输出实际耗费了大量资源,将log级别设置到error级,可以减少大量的IO操作。
虽然100秒处理30000多字在时间上可以接受,但那夜在仔细研究后发现,还有较大的优化空间可以提高计算速度。我已经想到一个方法,正在考虑如何较好地实现它。

为了试验程序在处理较大的语料文本时的速度,我将文本提高到了23万多字,但问题出现了,程序出现了OutOfMemory错误,是创建对象时Heap中空间不足。对这种问题一种办法是在虚拟机中添加参数[-Xms 128m -Xmx 256m]来增大堆内存,但这种做法却不能解决根本问题,当要处理的数据再大一些,比如200万字,还是有可能再次出现OutOfMemory错误的。根本的解决办法是设计新方案,对大文本进行特殊处理,具体方案正在设计之中。

现在还有一个问题需要解决,当语料库增加新的预料时(语料减少时需要重新计算),如何增量计算?这里面有较多的细节需要处理。