这里有新鲜出炉的 Java 设计模式,程序狗速度看过来!
Java 程序设计语言
java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序设计语言和 Java 平台(即 JavaEE(j2ee), JavaME(j2me), JavaSE(j2se))的总称.
这篇文章主要介绍了 Java 实现的最大匹配分词算法, 简单说明了最大匹配分词算法的原理并结合具体实例形式最大匹配分词算法的实现方法与相关注意事项, 需要的朋友可以参考下
本文实例讲述了 Java 实现的最大匹配分词算法.分享给大家供大家参考,具体如下:
全文检索有两个重要的过程:
1 分词
2 倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词. 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词.这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A 表示一个字,B 表示一个字,P(AB) 表示 AB 相邻出现的概率,P(A) 表示 A 在这篇文章中的频度,P(B) 表示 B 在这篇文章中的频度.用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率.
另外的一个方向是使用词典分词.就是事先为程序准备一个词典,然后通过这个词典对文章分词.目前较流行的方式有正向最大匹配算法和逆向最大匹配算法.逆向最大匹配算法在准确性上要更好一些.
以 "我是一个坏人" 为例,并最大词长为3,词库包含有我,是,一,个,一个,坏人,大坏人
正向的顺序为
我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===> 得到一个词
一个坏
一个 ===> 得到一个词
坏人 ===> 得到一个词
结果 我,是,一个,坏人
反向算法
个坏人
坏人 ==> 坏人
是一个
一个 ==> 一个
我是
是 ==> 是
我 ==> 我
结果 我,是,一个,坏人
java 代码如下
package data;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
/**
* 最大匹配分词算法
*
* @author JYC506
*
*/
public class SplitString {
private Set < String > set = new HashSet < String > ();
private int positiveOver = 0;
private int reverseOver = 0;
/**
* 正向最大匹配
*
* @param str 要分词的句子
* @param num 词的最大长度
* @return
*/
public String[] positiveSplit(String str, int maxSize) {
int tem = 0;
int length = str.length();
String[] ss = new String[length];
char[] cc = str.toCharArray();
for (int i = 0; i < length; i++) {
positiveOver = 0;
String sb = this.toStr(cc, i, maxSize);
ss[tem++] = sb;
i = i + positiveOver;
}
String[] ss2 = new String[tem];
System.arraycopy(ss, 0, ss2, 0, tem);
return ss2;
}
/**
* 添加词库
*
* @param words
*/
public void addWord(String[] words) {
for (String st: words) {
this.set.add(st);
}
}
/**
* 逆向最大匹配
*
* @param str
* @param num
* @return
*/
public String[] reverseSplit(String str, int num) {
int tem = 0;
int length = str.length();
String[] ss = new String[length];
char[] cc = str.toCharArray();
for (int i = str.length() - 1; i > -1; i--) {
reverseOver = 0;
String sb = this.toStr2(cc, i, num);
tem++;
ss[--length] = sb;
i = i - reverseOver;
}
String[] ss2 = new String[tem];
System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
return ss2;
}
private String toStr(char[] cs, int start, int num) {
int num2 = num;
out: for (int j = 0; j < num; j++) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < num2; i++) {
if (start + i < cs.length) {
sb.append(cs[start + i]);
} else {
num2--;
j--;
continue out;
}
}
if (set.contains(sb.toString())) {
positiveOver = num2 - 1;
return sb.toString();
}
num2--;
}
return String.valueOf(cs[start]);
}
private String toStr2(char[] cs, int start, int num) {
int num2 = num;
for (int j = 0; j < num; j++) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < num2; i++) {
int index = start - num2 + i + 1;
if (index > -1) {
sb.append(cs[index]);
} else {
num2--;
}
}
if (set.contains(sb.toString())) {
reverseOver = num2 - 1;
return sb.toString();
}
num2--;
}
return String.valueOf(cs[start]);
}
public static void main(String[] args) {
String[] words = new String[] {
"我们",
"我们五人",
"五人一组",
"一组"
};
SplitString ss = new SplitString();
/*添加词到词库*/
ss.addWord(words);
String st = "我们五人一组";
System.out.println("PHPERZ测试结果:");
System.out.println("要分词的句子:" + st);
/*使用两种方式分词,下面我指定最大词长度为4*/
String[] ss2 = ss.reverseSplit(st, 4);
String[] ss1 = ss.positiveSplit(st, 4);
System.out.println("正向最大匹配分词算法分词结果:" + Arrays.toString(ss1));
System.out.println("逆向最大匹配分词算法分词结果:" + Arrays.toString(ss2));
}
}
希望本文所述对大家 java 程序设计有所帮助.
来源: http://www.phperz.com/article/18/0117/353460.html