分类目录归档:软件

软件主菜单:软件技术相关文章。

N-Gram转移概率计算中的若干问题

这几天晚上,我对2-gram时计算词的转移概率的程序进行了优化,现在已经可以在100秒内完成30000多字的文本的预处理到并计算词长1到4时的转移概率了。当得到这样的测试结果时,自己竟兴奋的久久不能关机入睡眨眼:) 在优化过程中,主要是避免不必要得重复查找,对一些词的查找采用了新的算法,还有就是,log输出实际耗费了大量资源,将log级别设置到error级,可以减少大量的IO操作。
虽然100秒处理30000多字在时间上可以接受,但那夜在仔细研究后发现,还有较大的优化空间可以提高计算速度。我已经想到一个方法,正在考虑如何较好地实现它。

为了试验程序在处理较大的语料文本时的速度,我将文本提高到了23万多字,但问题出现了,程序出现了OutOfMemory错误,是创建对象时Heap中空间不足。对这种问题一种办法是在虚拟机中添加参数[-Xms 128m -Xmx 256m]来增大堆内存,但这种做法却不能解决根本问题,当要处理的数据再大一些,比如200万字,还是有可能再次出现OutOfMemory错误的。根本的解决办法是设计新方案,对大文本进行特殊处理,具体方案正在设计之中。

现在还有一个问题需要解决,当语料库增加新的预料时(语料减少时需要重新计算),如何增量计算?这里面有较多的细节需要处理。

n-gram 分词程序

经过一个月的开发,我的N-gram程序终于可以进行分词了,虽然由于语料库太小导致统计数据不足,分词效果不是很理想,但至少我终于从零开始完成了这个程序的开发,开发了分词程序的基本模块,包括语料预处理,分解,词典管理,从语料中统计信息,分词等功能。通过开发,我终于初步明白了数据挖掘、自然语言处理、搜索技术中数据处理所面临的一些问题,也明白了自己努力的方向。在大语料方面,我自己开发了一个小方案,但效率却比较低。
春节,也许还会有新的进展,特别是大语料的处理还需要进一步优化。

 

2010-10-18:今天找出了以前的代码,上传到了 http://idocbox.googlecode.com/files/xSpliter-0.1.zip 供大家了解一些简单的原理。 注意,我的代码是5年前写的,现在看,这个代码有很多问题的。所以,大家就当我献丑了,仅仅学习下就可以。

        用法:下载完了,把代码解压后的工程导入到eclipse, 通过执行里面的单元测试来了解统计、建统计词典、分词的过程。 

 

      有问题欢迎交流,如果我有时间,我会写一个分布式、更加智能、灵活、高效的算法实现给大家的。

作者:豆博草堂