Posts Tagged ‘Coreseek(Sphinx)’

Sphinx conf infix, Sphinx api total vs total found, quorum match vs extended2 mode


14 5月
最近公司使用sphinx中碰到的一些问题,做下记录。
针对类似搜索“南京”时,无法搜出带有“南京西路”的数据问题的解决方案。
第一步设置相应的.conf文件,修改如下属性:
enable_star = 1 #开启传说中的wildcard syntax模式,详见手册9.2.19. enable_star
min_infix_len  = 1 #设置最短匹配词长,详见手册9.2.16. min_infix_len
infix_fields = estate_name,estate_address #要启用infix的字段,必须填!因为infix会加大开销,如果不填这个字段,会对所有字段做infix,那将是很恐怖的开销!详见手册9.2.18. infix_fields
最后一个参数,手册上没有提到的,如果没有设置正确会对中文造成无解的属性:
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\ A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\ U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\ U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\ U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, \ U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D,\ U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, \ U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, \ U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, \ U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, \ U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, \ U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159,\ U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, \ U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, \ U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, \ U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175,\ U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, \ U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, \ U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, \ U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, \ U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, \ U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, \ U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, \ U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, \ U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, \ U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, \ U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, \ U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, \ U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, \ U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, \ U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, \ U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, \ U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, \ U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, \ U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, \ U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, \ U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF
额,不要惊慌,照抄就行了,把中文的都包括进去就ok了。
完了后,停掉searchd,重建索引就好。
之后,在搜索的时候,就可以使用类似'*南京*'、'*南京'、'南京*'之类的query,去当类似sql 的like用了,OVER。
——————————我是分割线———————————————— 当我们使用API从sphinx执行了一个查询之后,接口会返回一个数组。在这个数组中存在total_found和total两个值。 当查询出的结果数小于sphin中配置的最大返回结果数(默认为1000)时,这两个值是相等的。 而查询出的结果数大于sphin中配置的最大返回结果数(默认为1000)时,total_found的值是在sphinx中所有满足搜索条件的结果数,而total返回的是sphin中配置的最大返回值。 因此,在分页等需要所有满足搜索条件的结果数的时候,应该使用total_found的值。 ——————————我这个分割线又来了———————————— 在使用@(column1,column2,column3) "关键词1 关键词2 关键词3 关键词4 关键词5 ... 关键词N"/2这种参数的时候,搜索模式应该设置为SPH_MATCH_EXTENDED模式,而不能用传说中效率更高的SPH_MATCH_EXTENDED2模式,否则将会发生不可预料的事情。。。(沿用sphinx官方风格比喻,就是可能屏幕里面跳出来一只大猩猩,对着你仍酒桶。) END P.S. 很多其他sphinx的常见问题在官方FAQ中都有,比如filter中要用or的话,怎么解决,FAQ中就很牛叉。膜拜一下。 ————————————2010/5/18补充—————————————————— 发现上周提出的infix方式与现有分词索引的方式起了比较大的冲突(用了infix就基本无法用分词了),于是顺道回顾了一下张宴大师的博客,发现他原来早碰到过这个问题了。而他的解决方案明显非常不错。直接贴了: 1、一元分词和中文分词的结合:  ①、一元分词位于索引更新模块。Sphinx索引引擎对于CJK(中日韩)语言(必须是UTF-8编码)支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。对于这个问题,采用位于搜索查询模块的中文分词来处理。 sphinx.conf配置文件中关于UTF-8中文一元分词的配置如下: ...省略... index t_source_main { source                  = t_source_main path                    = /data0/search/sphinx/data/t_source_main docinfo                 = extern mlock                   = 0 morphology              = none min_word_len            = 1 charset_type            = utf-8 min_prefix_len          = 0 html_strip              = 1 charset_table           = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ngram_len               = 1 ngram_chars             = U+3000..U+2FA1F } ...省略... ②、中文分词位于搜索查询模块。搜索“反恐行动游戏”、“国产网络游戏”,先调用独立的中文分词系统,分别切分为“反恐行动 游戏”、“国产 网络游戏”,这时候,再给以空格分隔的词语加上引号,去Sphinx搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】,就能搜索到这条记录了。中文分词词库发生增、删、改,无需重建整个Sphinx搜索索引。 henry解释:也就是说,做索引的时候,不用词库去分词,而是沿用sphinx原来的一元分词法。在搜索的时候才用分词去做词组的完全匹配搜索。另外一个原因,用原版的一元分词索引速度也要快很多,在他的博文中提到:   “我的环境是10000转的SAS硬盘,如果换成15000转的硬盘,速度要更快,Sphinx官方给出的索建引速度为10Mbytes/秒。原版的sphinx一元分词创建索引速度在5.5M/秒以上,而打了LibMMSeg中文分词补丁的Sphinx创建索引速度只有300KB/秒,所以采用原版的sphinx 0.9.9能够保证频繁更新情况下的索引实时性。一元分词的索引的数据量会大一些,但可以通过sphinx分布式索引来解决搜索效率问题。”   希望对大家有所借鉴,原文地址http://blog.s135.com/sphinx_search/

Coreseek(Sphinx) MMSEG 自制词库(附源码)


21 4月

——菜鸟 Linux 服务器搭建 随笔 连载之九

继上次之后玩弄sphinx后,突然发现,原来她并不支持类似摘要的功能,囧。我还真是后知后觉。起初还难以置信,之后看了官网相应FAQ 后,发现确是如此,看来我被lucene搞混了,还以为都有的呢 - - 小小郁闷了一下,顺便又回头看了下lucene,zendframework的那个纯php的lucene貌似还是不合适,php的效率比较堪忧,另外他还致命的不支持分布式的存储,唉。正纠结是不是要去研究下java lucene的时候,看到一篇文章研究,表明在主键索引的mysql中用主键去搜索,效率还是异常高的,千万级的数据基本是0.0x秒级别的速度。就不知道联表后会如何了,不知道用mysql的view会不会效率慢。另外lucene的索引速度比sphinx要慢9倍之多! 下面是一个简单的词库制作的东东,因为上次听说如果词库里面有重复的词会报错来着, 建个表先: CREATE TABLE IF NOT EXISTS `yoowords` ( `word` varchar(255) NOT NULL, `file` varchar(255) NOT NULL, `freq` int(10) unsigned NOT NULL DEFAULT '1', `type` varchar(255) NOT NULL DEFAULT '', PRIMARY KEY (`word`) ) ENGINE=MyISAM DEFAULT CHARSET=utf8; 然后把http://www.sogou.com/labs/dl/w.html和http://wubi.sogou.com/dict/list.php?c=306&page=3自己喜欢的词库txt的下载下来。放到某个目录(我是dict) 导入的php: $link = mysql_connect("fedora2", "sphinx", "sstsst") or die("Could not connect: " . mysql_error()); mysql_select_db('mmseg') or die('Could not select database'); if ($handle = opendir('./dict')) { while (false !== ($file = readdir($handle))) { if ($file != "." && $file != "..") { echo "$file\n"; $lines = file("./dict/$file"); foreach ($lines as $line_num => $line) { $words = (array)explode("\t",$line); $result = mysql_query("SELECT * from yoowords where word = '".$words[0]."'"); if(!mysql_fetch_row($result)){ mysql_query("insert into yoowords values('".$words[0]."','".$file."','".$words[1]."','".$words[2]."')"); } } } } closedir($handle); } 导出的php: $link = mysql_connect("fedora2", "sphinx", "sstsst") or die("Could not connect: " . mysql_error()); mysql_select_db('mmseg') or die('Could not select database'); $filename = 'words.txt'; if (!$handle = fopen($filename, 'x')) { echo "不能打开文件 $filename"; exit; } $result = mysql_query("SELECT * from yoowords"); while($row = mysql_fetch_row($result)){ $words.= preg_replace("/[ \f\n\r\v]/","",$row[0]."\t".$row[2])."\nx:".$row[2]."\n"; } if (fwrite($handle,$words) === FALSE) { echo "不能写入到文件 $filename"; exit; } fclose($handle); 暂时,至此。

Coreseek(Sphinx)中文分词设置,MySql默认编码设置&自动SET NAMES utf8


11 4月

——菜鸟 Linux 服务器搭建 随笔 连载之八

嗯,这两天休息在家,周六基本荒废掉了,不记得干了点什么,今天早上6点多莫名其妙醒了睡不着了,于是断断续续接着弄了点搜索引擎,结果过了会又睡着了,之后醒了就去老婆家陪她了,嗯,现在回家都弄好了,顺便记录一下,再睡一觉估计我就得忘光了,唉,脑子不灵光啊。。。 在开始写搜索引擎相关之前,先记录一段关于mysql编码的设置,现在一般编码全部是utf8了,而每次查询前set names utf8还是很浪费资源的,所以看了下,似乎set names utf8等于是: SET character_set_client = utf8; SET character_set_results = utf8; SET character_set_connection = utf8; 于是查了下,如何默认设置这几个东东utf8,只要在/etc/my.cnf中相应位置加入: [mysqld] default-character-set=utf8 [client] default-character-set=utf8 就可以了。ok,下面继续将搜索引擎,上面的mysql设置对coreseek也是很有用的,也是为用中文分词utf8时所准备的。 (注意,我所有的东西都以utf8为基础讲的,如果你还在用nc的gbk,我会无视你) P.S. 关于mysql的这些文末还有补充(2010/4/12)。 coreseek的中文分词设置很简单, 只需要修改/usr/local/coreseek/etc/csft.conf中的charset_type = zh_cn.utf-8, 同时必须添加一行charset_dictpath = /usr/local/coreseek/dict即可,这一行是字典文件的路径, 要用中文分词,必须设置这两行!缺一不可! 默认的字典文件在coreseek安装文件目录下的mmseg/data/中,复制其中的uni.lib到上面说的dict目录就好了。 如果像我一样索引时报了找不到mmseg.ini文件的错误的话,就复制mmseg安装目录中的src/win32/mmseg.ini到dict目录即可。 下面是自己做字典文件的方法,摘自coreseek官网: (比如使用搜狗的词库改造之类的) mmseg -u unigram.txt 该命令执行后,将会产生一个名为unigram.txt.uni的文件,将该文件改名为uni.lib,完成词典的构造。需要注意的是,unigram.txt 必须为UTF-8编码。 词典文件格式: .... 河 187 x:187 造假者 1 x:1 台北队 1 x:1 湖边 1 ...... 其中,每条记录分两行。其中,第一行为词项,其格式为:[词条]\t[词频率]。需要注意的是,对于单个字后面跟这个字作单字成词的频率,这个频率需要在大量的预先切分好的语料库中进行统计,用户增加或删除词时,一般不需要修改这个数值;对于非单字词,词频率处必须为1。第二行为占位项,是由于LibMMSeg库的代码是从Coreseek其他的分词算法库(N-gram模型)中改造而来的,在原来的应用中,第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。 用户可以通过修改词典文件增加自己的自定义词,以提高分词法在某一具体领域的切分精度,系统默认的词典文件在data/unigram.txt中。 分词 mmseg -d tobe_segment.txt 其中,命令使用‘-d’开关指定词库文件所在的位置,参数dict_dir为词库文件(uni.lib )所在的目录;tobe_segment.txt 为待切分的文本文件,必须为UTF-8编码。如果一切正确,mmseg会将切分结果以及所花费的时间显示到标准输出上。 查到个资料表明,如果要合并某个词库到默认词库的话,直接按格式贴到后面还不够,还必须去掉重复的项,否则会报错,所以明天可能会写个程序合并下默认词库和搜狗词库试试,具体代码(如果有的话)到时候再贴。 下面贴一段暂时没用到,以后可能有用的东东,也是上面自制字典同一个位置的内容: 对特殊短语的支持 由于LibMMSeg是为Sphinx全文搜索引擎设计的,因此其内置了部分搜索引擎切分算法的特性,主要表现在对特殊短语的支持上。 在搜索引擎中,需要处理C++时,如果分词器中没有词组C++,则将被切分为C/x +/x +/x,在进一步的检索中,可能每个词会由于出现的过于频繁而被过滤掉,导致搜索的结果与C++相关度不高不说,也严重影响的全文搜索的速度。在LibMMSeg中,内置对特殊短语的支持。 其输入文件格式如下 // test commit .net => dotnet c# => csharp c++ => cplusplus 其中左侧是待支持的特殊短语,右侧是左侧的特殊短语需要被转换为的短语。这一转换在分词前进行。 可以在行的开头加入'//'作为注释符号,发现符号'//'后,整行将被忽略。 特殊短语词库构造命令: mmseg -b exceptions.txt 其中, 开关'-b'指示mmseg是要构造特殊短语词库;exceptions.txt是用户编辑的特殊短语转换规则。 该命令执行后,将在当前目录下产生一个名为"synonyms.dat"的文件,将该文件放在"uni.lib"同一目录下,分词系统将自动启动特殊短语转换功能。 注意: 1、在启用了该功能后,如果分词系统发现了一个特殊短语,将直接输出其在右侧对应的替换的值; 2、右侧被替换的值,请保证不会被分词器进行切分。(eg. C++ => C# 这个转换的意义不大,并且可能导致C++这个短语永远无法被检索到!) 嗯,暂时就这么多吧。目前为止,中文搜索似乎是ok了,但是用putty直接运行search的时候,返回的中文会是乱码,不知道原因ing,可能用php去调会好,后续有情况再记录。 明天争取合并了词库,并且完成用php查询的实验,如果能完成增量索引的概念则更佳,^ ^ That's all for today. ————————2010/4/12分割线———————— 今天到公司尝试了下php的api之类的,昨天mysql的编码问题其实并没有彻底解决,发现csft.conf里面还是加了 sql_query_pre = SET NAMES utf8 才能正常读中文的东东,于是查了些资料,参考了下公司的mysql设置, 发现,原来mysql4.1.2开始支持一个叫init_connect的参数了,也就是默认链接时运行的语句,只要 [mysqld] init_connect='SET NAMES utf8' 就可以了, 但是,必须注意的是,如果链接mysql的用户是super权限的话,这个设置是无效的!!! 希望和我一样偷懒用root链接的朋友注意了。csft.conf 中换了普通权限的用户后,一切正常了,昨天所有乱码问题全部迎刃而解了。^ ^

Coreseek(Sphinx)安装


08 4月

——菜鸟 Linux 服务器搭建 随笔 连载之七

昨天终于抽时间装了下sphinx,曾经一直关注的一个开源搜索引擎,而Coreseek可以说是国内对sphinx整合最好,支持最好的一个中文站了。coreseek在4月1日正好推出了新的版本3.2,基于最新版的sphinx 0.9.9。coreseek官网上安装说明比较详细,以下贴上较主要的一些:

依赖环境安装: Debina等使用deb系统: aptitude -y install yum glibc-common build-essential libtool autoconf automake mysql-client libexpat-dev Centos等使用yum系统: yum -y install glibc-common libtool autoconf automake mysql-devel expat-devel BSD系统: pkg_add -r libtool autoconf automake mysql5-client iconv 下载解压: wget -d http://www.coreseek.cn/uploads/csft/3.2.3/csft_3.2.tar.gz tar xzvf csft_3.2.tar.gz 先装mmseg: cd csft3.2-3_2/mmseg 官网上autoconf那些似乎不是必须的,直接: ./configure --prefix=/usr/local/mmseg3 make make install cp -f src/*/*.h /usr/local/mmseg3/include/mmseg/ 然后装coreseek: cd .. ./configure --prefix=/usr/local/coreseek --enable-id64 --without-python --with-mysql --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ make make install 附加: 如需启用python支持,请安装或者升级至python2.6,configure之中,去掉--without-python,加上--with-python,然后重新编译安装 至此安装就over了。然后可能会有人需要用到mysql的spinxse引擎,搜了下安装方式,使用 plugin 方式,不需要重新编译 mysql,但是需要 mysql 的 src 包 。 分别到mysql和sphinx官网把相应的src包下载过来,记得版本一定要和你系统里的一致。 tar zxvf mysql.5.1.44.src.tar.gz tar zxvf sphinx.0.9.9.src.tar.gz cd mysql.5.1.44 mv ../sphinx.0.9.9/mysqlse storage/sphinx BUILD/autorun.sh ./configure --with-big-tables cd storage/sphinx make -j4 cp .libs/ha_sphinx.so /usr/lib/mysql/plugin (我64位系统这个目录就变成了/usr/lib64/mysql/plugin) mysql -p mysql> install plugin sphinx SONAME 'ha_sphinx.so'; mysql> show engines; 以上,环境基本完毕。今天继续后续实验。

貓熊寶寶幼齒園

姜經緯的博客