- 提示,FTPHP的升级换代产品Xungle(迅狗网)已经开始内测,支持Discuz/PHPWind两大论坛免费搜索,请关注!!
-
- 2010-01-28: SCWS-1.1.0 Released.
- 1) 新增功能: 支持载入纯文本词典(TXT), 一次分词可使用多个词典, 以实现不改变核心词库的原则下快速增减词。
- 2) 新增功能:判断文本中是否包含指定词性的词汇及获取指定词性的词汇列表(词性参数和scws_get_tops相同)
- 3) 该版本同步编译支持 Win32 的 php_scws.dll,支持 5.2.x 及 4.4.x 系列的 PHP
- 4) scws_gen_dict 所有的文本词典格式更为宽松与add_dict兼容,允许多个空格或制表符分割,可省略除词外的选项
- 5) 关于 1.1.0 的新功能的详细用法及介绍请点此进入BLOG查看;文本自动分类、新词TF/IDF计算器。
- 2009-7-31 SCWS 发布 1.0.4, 修正紧贴在中文后结尾的1~2个英文字母返回长度多1的bug。
- 2009-7-16 SCWS 中的 php 扩展实现略作修改以正确支持 PHP5.3+, 版本号没有改变, 但即日起的下载包已作更新。
- 2009-7-1 发布一套用纯 php 开发的 xdb 词典导入与导出工具,有需要的请下载参考使用(phptool_for_scws_xdb.zip)。
- 2009-5-26 SCWS 发布更新 1.0.3 版,整合yanbin提供的win32编译工程文件及少数地方的兼容,但需要用户自己编译,因为我也没有编译环境,只是将代码调整到兼容win32环境。
- 2009-5-15 SCWS 发布更新 1.0.2 版,加入词性规则消岐,很好的处理了大部分短词岐义分词。
- 2008-12-21 SCWS 划入 FTPHP 项目,作为子项目重建本网站。
- 2006 - 2007 陆续开发纯 PHP 实现的 PSCWS 第二版与第三版,2007-06-09 发布 scws-0.0.1 pre 版,功能基本完整,2008-03-08 发布 scws-1.0.0 正式版。
简介
- SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。
这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。
SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
[推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!
| 版本 |
类型 |
平台 |
性能 |
其它 |
| SCWS-1.0.x |
C 代码 |
*Unix*/*PHP* |
准确: 95%, 召回: 91%, 速度: 1.2MB/sec PHP扩展分词速度: 250KB/sec |
[下载] [文档] [安装说明] |
| php_scws.dll(1) |
PHP扩展库 |
Windows/PHP 4.4.x |
准确: 95%, 召回: 91%, 速度: 40KB/sec |
[下载] [文档] [安装说明] |
| php_scws.dll(2) |
PHP扩展库 |
Windows/PHP 5.2.x |
准确: 95%, 召回: 91%, 速度: 40KB/sec |
[下载] [文档] [安装说明] |
| PSCWS23 |
PHP源代码 |
不限 (不支持UTF-8) |
准确: 93%, 召回: 89%, 速度: 960KB/min |
[下载] [文档] |
| PSCWS4 |
PHP源代码 |
不限 |
准确: 95%, 召回: 91%, 速度: 160KB/min |
[下载] [文档] |
|