SCWS 1.0.3 开源免费的简易中文分词系统,PHP分词的上乘之选!

首页   下载   演示   文档   关于   服务支持   论坛   FTPHP  

  • 提示,FTPHP的升级换代产品Xungle(迅狗网)已经开始内测,支持Discuz/PHPWind两大论坛免费搜索,请关注!!
  • 2010-01-28: SCWS-1.1.0 Released.
    1) 新增功能: 支持载入纯文本词典(TXT), 一次分词可使用多个词典, 以实现不改变核心词库的原则下快速增减词。
    2) 新增功能:判断文本中是否包含指定词性的词汇及获取指定词性的词汇列表(词性参数和scws_get_tops相同)
    3) 该版本同步编译支持 Win32 的 php_scws.dll,支持 5.2.x 及 4.4.x 系列的 PHP
    4) scws_gen_dict 所有的文本词典格式更为宽松与add_dict兼容,允许多个空格或制表符分割,可省略除词外的选项
    5) 关于 1.1.0 的新功能的详细用法及介绍请点此进入BLOG查看文本自动分类新词TF/IDF计算器
  • 2009-7-31 SCWS 发布 1.0.4, 修正紧贴在中文后结尾的1~2个英文字母返回长度多1的bug。
  • 2009-7-16 SCWS 中的 php 扩展实现略作修改以正确支持 PHP5.3+, 版本号没有改变, 但即日起的下载包已作更新。
  • 2009-7-1 发布一套用纯 php 开发的 xdb 词典导入与导出工具,有需要的请下载参考使用(phptool_for_scws_xdb.zip)。
  • 2009-5-26 SCWS 发布更新 1.0.3 版,整合yanbin提供的win32编译工程文件及少数地方的兼容,但需要用户自己编译,因为我也没有编译环境,只是将代码调整到兼容win32环境。
  • 2009-5-15 SCWS 发布更新 1.0.2 版,加入词性规则消岐,很好的处理了大部分短词岐义分词。
  • 2008-12-21 SCWS 划入 FTPHP 项目,作为子项目重建本网站。
  • 2006 - 2007 陆续开发纯 PHP 实现的 PSCWS 第二版与第三版,2007-06-09 发布 scws-0.0.1 pre 版,功能基本完整,2008-03-08 发布 scws-1.0.0 正式版。
简介 - SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。

  这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。

  SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

  [推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!

版本 类型 平台 性能 其它
SCWS-1.0.x C 代码 *Unix*/*PHP* 准确: 95%, 召回: 91%, 速度: 1.2MB/sec
PHP扩展分词速度: 250KB/sec
[下载] [文档] [安装说明]
php_scws.dll(1) PHP扩展库 Windows/PHP 4.4.x 准确: 95%, 召回: 91%, 速度: 40KB/sec [下载] [文档] [安装说明]
php_scws.dll(2) PHP扩展库 Windows/PHP 5.2.x 准确: 95%, 召回: 91%, 速度: 40KB/sec [下载] [文档] [安装说明]
PSCWS23 PHP源代码 不限 (不支持UTF-8) 准确: 93%, 召回: 89%, 速度: 960KB/min [下载] [文档]
PSCWS4 PHP源代码 不限 准确: 95%, 召回: 91%, 速度: 160KB/min [下载] [文档]



(C)opyright 2007, 2008, 2009, Powered by FTPHP | 浙ICP备08002718号