N-Gram转移概率计算中的若干问题

这几天晚上，我对2-gram时计算词的转移概率的程序进行了优化，现在已经可以在100秒内完成30000多字的文本的预处理到并计算词长1到4时的转移概率了。当得到这样的测试结果时，自己竟兴奋的久久不能关机入睡眨眼:) 在优化过程中，主要是避免不必要得重复查找，对一些词的查找采用了新的算法，还有就是，log输出实际耗费了大量资源，将log级别设置到error级，可以减少大量的IO操作。
虽然100秒处理30000多字在时间上可以接受，但那夜在仔细研究后发现，还有较大的优化空间可以提高计算速度。我已经想到一个方法，正在考虑如何较好地实现它。

为了试验程序在处理较大的语料文本时的速度，我将文本提高到了23万多字，但问题出现了，程序出现了OutOfMemory错误，是创建对象时Heap中空间不足。对这种问题一种办法是在虚拟机中添加参数[-Xms 128m -Xmx 256m]来增大堆内存，但这种做法却不能解决根本问题，当要处理的数据再大一些，比如200万字，还是有可能再次出现OutOfMemory错误的。根本的解决办法是设计新方案，对大文本进行特殊处理，具体方案正在设计之中。

现在还有一个问题需要解决，当语料库增加新的预料时(语料减少时需要重新计算)，如何增量计算？这里面有较多的细节需要处理。

发表回复取消回复