数码资讯

phpanalysis中文分词

2023-07-22 阅读 131

选购提示 关注价格、性能、续航、售后和真实使用场景，理性比较后再下单。

phpanalysis是一个广泛使用的中文分词。它使用反向匹配模式分割，因此它更兼容和广泛编码。

一个更重要的成员变量

resulttype美元= 1产生的数据类型的分割结果（1的所有2个字与单和简化汉字和英语，3个单词和英语）
这个变量一般是由setresulttype（$ rstype）方法。
notsplitlen美元= 5长度最短的句子
为降低=假把所有的英语单词了
differmax美元=假消歧利用最大分割模式2元词
unitword美元=真正尝试合并单词（即新词识别）
differfreq美元=假使用热词优先模式的消歧

两。主要成员函数列表

1，公共职能__construct（$ source_charset = 'utf-8，target_charset = 'utf-8美元，美元load_all = true，$源= ''）
函数描述：构造函数
参数列表：
source_charset美元源字符串编码
target_charset美元目录字符串编码
是否load_all美元满载字典（这个参数已经失效）
源字符串
如果输入和输出都是UTF-8，你其实可以不必使用任何参数的初始化设置，但通过设置文件来源的方法操作文本。

2、公共功能设置文件来源（来源source_charset = 'utf-8美元，美元，美元target_charset = 'utf-8）
函数描述：设置源字符串
参数列表：
源字符串
source_charset美元源字符串编码
target_charset美元目录字符串编码
返回值：bool

3、公共职能开始分析（合优化= true）
功能描述：开始分词操作
参数列表：
是否在优化分词之后尝试优化结果
返回值：无效
基本分词过程：
中的
PA =新phpanalysis（美元）；

$ PA ->设置文件来源（'String'需要分词）；

设置单词属性
PA -> resulttype = 2美元；
PA -> differmax =真美元；

美元->开始分析（PA）；

获取您想要的结果
PA -> getfinallyindex（美元）；
中的

4，公共职能setresulttype（$ rstype）
函数描述：设置返回结果的类型
实践是成员变量的resulttype美元操作
参数rstype美元价值：
1个2个字典单词，单和简体字和英语，3个字典单词和英语。
返回值：无效

5，公共职能getfinallykeywords（$数= 10）
函数描述：获取最高频率的指定条目的数量（通常用于提取文档关键字）
参数列表：
$ = 10返回条目的数目
返回值：由分隔的关键字列表

6，公共职能getfinallyresult（$ spword = ''）
函数描述：最后分词的结果
参数列表：
美元之间spword项分隔符
返回值：字符串

7、公共函数GetSimpleResult（）
函数描述：得到粗略的结果
返回值：数组

8、公共函数GetSimpleResultAll（）
函数描述：获取包含属性信息的粗略结果。
属性（1个中文单词，2个ANSI单词（包括全宽度），3个ANSI（包括全宽度标点符号），4个数字（包括全宽度），5个中文标点或未识别字符）
返回值：数组

9，公共职能getfinallyindex（）
函数描述：获取一个散列索引数组。
返回值：阵列（'word= >计数，…）是按频率

10，公共职能makedict（source_file美元，美元target_file = ''）
功能描述：将文本文件词典编译成字典
参数列表：
source_file美元源文本文件
target_file美元目标文件（如果没有指定，它是当前词典）
返回值：无效

11，公共职能exportdict（$文件）
函数描述：将当前字典中的所有条目作为文本文件导出
参数列表：
为文件目标文件
返回值：无效

声明：本文内容用于数码产品信息整理与选购参考，具体价格、库存、售后政策以官方渠道和电商页面实时信息为准。