分类目录归档:算法

缓存算法探究

       为什么要使用缓存? 缓存的最大优点在于可以达到用空间换时间的效果,避免一些不必要的计算,从而提高应用程序的响应速度。

        目前有很多缓存框架,比如ehcache, memcached, memcache, OSCache等等。然而,无论何种框架,基本上就是以<key, object>这种映射机制将对象记录起来,等下次需要对象object时,先计算它的key值,然后到缓存中根据key来取,取得后返回该对象,否则创建该对象,并在一定的条件下进行缓存。另外,由于绝大多数缓存都是将对象存储在内存中,而内存又相对有限,所以不可能缓存所有对象,需要有选择的缓存,有选择的淘汰一些对象。考虑到这些,一个缓存算法必须具备缓存和淘汰机制。基于这种思想,豆博草堂设计了如下缓存算法:

Map<KeyObject, Object> cacheMap = new HashMap<KeyObject, Object>();
Map<KeyObject, Integer> visiteCountMap = new HashMap<KeyObject, Integer>();
int cacheSize = 100;
/**
* retrivee object.
*/

Object retrieve(KeyObject key){
     Object obj = null;
     if(cacheMap.containsKey(key)){
     obj = cacheMap.get(key);
     } else {
     //find given key's object from other way.

     obj = service.findObject(key);
     if(null != obj){
         cacheMap.put(key, obj);
        }
     }
         
     //increate count.

     if(visiteCountMap.containsKey(key)){
     visiteCountMap.put(key, visiteCountMap.get(key) + 1);
     } else {
     visiteCountMap.put(key, new Integer(1));
     }
    
     //eliminate some cached object while size >= 100.

     if(cacheMap.size() >= cacheSize){
     eliminate();
     }
    
     return obj;
}
/**
* eliminate object that not visited usually.
*/

void eliminate(){
    Set<KeyObject> keys = cacheMap.keySet();
    if(null != keys){
     for(KeyObject key : keys){
         if(visiteCountMap.get(key).intValue < 5){
             //eliminate the object.

                cacheMap.remove(key);
            }
        }
    }
}

           希望这个算法对你编写具备缓存机制的程序有帮助。

    作者: 豆博草堂

n-Gram splitter

While we process chinese, we need to split chinese sentences into chinaese words,a statistical algorithm is N-Gram split algorithm, which needn’t dictionary. 2-gram is very easy to implemente,but the algorithm becomes complex while n > 2. Now, I have implemented the prototype of 2-gram, I will implement the algorithm n-gram while n >2 and HMM algorithm.These algorithms are very useful on finding new words.
Oyeah!

N-Gram转移概率计算中的若干问题

这几天晚上,我对2-gram时计算词的转移概率的程序进行了优化,现在已经可以在100秒内完成30000多字的文本的预处理到并计算词长1到4时的转移概率了。当得到这样的测试结果时,自己竟兴奋的久久不能关机入睡眨眼:) 在优化过程中,主要是避免不必要得重复查找,对一些词的查找采用了新的算法,还有就是,log输出实际耗费了大量资源,将log级别设置到error级,可以减少大量的IO操作。
虽然100秒处理30000多字在时间上可以接受,但那夜在仔细研究后发现,还有较大的优化空间可以提高计算速度。我已经想到一个方法,正在考虑如何较好地实现它。

为了试验程序在处理较大的语料文本时的速度,我将文本提高到了23万多字,但问题出现了,程序出现了OutOfMemory错误,是创建对象时Heap中空间不足。对这种问题一种办法是在虚拟机中添加参数[-Xms 128m -Xmx 256m]来增大堆内存,但这种做法却不能解决根本问题,当要处理的数据再大一些,比如200万字,还是有可能再次出现OutOfMemory错误的。根本的解决办法是设计新方案,对大文本进行特殊处理,具体方案正在设计之中。

现在还有一个问题需要解决,当语料库增加新的预料时(语料减少时需要重新计算),如何增量计算?这里面有较多的细节需要处理。