又突破一个难关

在这段学习NLP过程中,终于生成了语言识别所需的配置文件(其实要细细的看就会发现那个文件的格式很简单.), 学会了如何识别文本所采用的语言的方法,同时也发现那个软件中所采用的算法抗干扰(有人也称鲁棒性)能力较弱,如果你在中文中夹杂几个英文单词,她就会识别错,现在已经明白,西文与中文构词元素是完全不同的,西文采用字母构词,同样行数的文本,西文统计词频普遍偏高,而中文每个字互不相关,词频非常的低,这样计算数据自然不能相提并论(知道为什么吗?还记得不等式:(a+ c)/(b+c) > a/b, where 0<a<b, c>0吗?就是这个原因。)。这是个问题,要研究下。

对于我开发的分词程序,我决定先放着, 要让它非常高效的运行估计再没有2个月是达不到的,毕竟我投入了一个月才写出语料预处理,分解,词典管理,从语料中统计信息,分词等,而且分词效果不好,计算效率低, 我采用的是统计方法。与其再投入大量精力和时间自己摸索着开发,贻误时机,不如直接拿别人做好的开源产品直接来用(虽然也有些问题),先让系统运转起来,然后投入精力到最核心的部分,那样才值。

原来我以为google的搜索的所有技术都是自己开发的,现在才发现,有很多他是购买别的公司的,比如中文处理技术,他是购买http://www.basistech.com 的. 其实,每个巨人的成长都是在许多人的成果基础上发展起来的, 举例略。
进步了一点点, 路还很长…

作者:豆博草堂

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

请拖动滑块 *