phpanalysis是一个广泛使用的中文分词。它使用反向匹配模式分割,因此它更兼容和广泛编码。
一个更重要的成员变量
resulttype美元= 1产生的数据类型的分割结果(1的所有2个字与单和简化汉字和英语,3个单词和英语)
这个变量一般是由setresulttype($ rstype)方法。
notsplitlen美元= 5长度最短的句子
为降低=假把所有的英语单词了
differmax美元=假消歧利用最大分割模式2元词
unitword美元=真正尝试合并单词(即新词识别)
differfreq美元=假使用热词优先模式的消歧
两。主要成员函数列表
1,公共职能__construct($ source_charset = 'utf-8,target_charset = 'utf-8美元,美元load_all = true,$源= '')
函数描述:构造函数
参数列表:
source_charset美元源字符串编码
target_charset美元目录字符串编码
是否load_all美元满载字典(这个参数已经失效)
源字符串
如果输入和输出都是UTF-8,你其实可以不必使用任何参数的初始化设置,但通过设置文件来源的方法操作文本。
2、公共功能设置文件来源(来源source_charset = 'utf-8美元,美元,美元target_charset = 'utf-8)
函数描述:设置源字符串
参数列表:
源字符串
source_charset美元源字符串编码
target_charset美元目录字符串编码
返回值:bool
3、公共职能开始分析(合优化= true)
功能描述:开始分词操作
参数列表:
是否在优化分词之后尝试优化结果
返回值:无效
基本分词过程:
中的
PA =新phpanalysis(美元);
$ PA ->设置文件来源('String'需要分词);
设置单词属性
PA -> resulttype = 2美元;
PA -> differmax =真美元;
美元->开始分析(PA);
获取您想要的结果
PA -> getfinallyindex(美元);
中的
4,公共职能setresulttype($ rstype)
函数描述:设置返回结果的类型
实践是成员变量的resulttype美元操作
参数rstype美元价值:
1个2个字典单词,单和简体字和英语,3个字典单词和英语。
返回值:无效
5,公共职能getfinallykeywords($数= 10)
函数描述:获取最高频率的指定条目的数量(通常用于提取文档关键字)
参数列表:
$ = 10返回条目的数目
返回值:由分隔的关键字列表
6,公共职能getfinallyresult($ spword = '')
函数描述:最后分词的结果
参数列表:
美元之间spword项分隔符
返回值:字符串
7、公共函数GetSimpleResult()
函数描述:得到粗略的结果
返回值:数组
8、公共函数GetSimpleResultAll()
函数描述:获取包含属性信息的粗略结果。
属性(1个中文单词,2个ANSI单词(包括全宽度),3个ANSI(包括全宽度标点符号),4个数字(包括全宽度),5个中文标点或未识别字符)
返回值:数组
9,公共职能getfinallyindex()
函数描述:获取一个散列索引数组。
返回值:阵列('word= >计数,…)是按频率
10,公共职能makedict(source_file美元,美元target_file = '')
功能描述:将文本文件词典编译成字典
参数列表:
source_file美元源文本文件
target_file美元目标文件(如果没有指定,它是当前词典)
返回值:无效
11,公共职能exportdict($文件)
函数描述:将当前字典中的所有条目作为文本文件导出
参数列表:
为文件目标文件
返回值:无效