【全文検索】ApacheSolr入門をやってみる 第3回

前回、N-gramをさわってみましたが今回は形態素解析ということで、senを導入してみようと思います。

9月20日追記:この回では形態素解析の動作確認に失敗しております(笑
第4回でリベンジしましたので、もしも、もしもこのクソブログを参考にされている方いましたら4回の方をご覧ください。

そもそもこのsenとかいうヤツが何なのかよく分かってなくて、mecabとかいうのと何が違うの?
なんて考えているんですけど。 これをやれば分かるんじゃないかと思いつつ・・

まぁいいや、とにかく手を動かしてみます。

まず、なにはともあれ形態素解析器と称されるsenをDLします。

https://sen.dev.java.net/

こちらが案内されてましたが、もうこのサイト存在しないようでした(´Д`;)ハァハァ

・・・

・・・

というわけでgoogle先生に色々聞いてみると、どうもsenとかいうヤツはメンテされてなくて最近はgosenなる形態素解析が主流になっているそう。
ほーーー

で、gosenさんはコンパイル済みの辞書ファイルがjarに含まれているとの事で手順がガラっと変わる様子です。
その辺はたどり着いた@johtaniさんの日記に記されていました。

このお名前はどっかで見たことあるな、 と思っていたらapache solr入門の著者のお一人だそうですね。

senではなくgosenでサンプルを動かす手順が案内されています。

gosenを動かそう

まずlucene-gosen-1.2.0をDLしてきます


wget http://lucene-gosen.googlecode.com/files/lucene-gosen-1.2.0-ipadic.jar

次に $SOLR/example/solr/lib へ.jarファイルをコピーするそうなのですがなかったので作成してコピー
そんで、コピー後にexampleディレクトリでstart.jarを起動すればOKな模様です。

やってみます


$mkdir example/solr/
$cp lucene-gosen-1.2.0-ipadic.jar $SOLR/example/solr/lib/
$cd $SOLR/example
$java -jar start.jar

またまたターミナルにドヒャーっと文字郡が流れてきて「INFO::Started」の文字が

これは  イケたのか??

とりあえず再びSolr adminにアクセスしてANALYSYSをクリック。
指示通りに Fieldをtypeにセットして ”text_sen” を入力。
Field Valueに適当に文字を入れて見ます。

Analyzeボタン ポチっとな。

Unknown Field Type: text_sen

ガ━━(゚Д゚;)━━━ン!!!!!

・・・
なんでですのー と思いつつもjohtani氏のブログを眺めているとN-gramのサンプルプログラムも
「これを使って・・」という記載があるのでとりあえず、先日入れたヤツと取り替えてみます。

schema.xmlを入れなおそう

氏のブログでは別のschema.xmlを案内していたので、まずそいつをDLして前回入れたschema.xmlを上書きしてみます。


$ wget https://bitbucket.org/johtani/solrbook-lucene-gosen-3.x/raw/b51b74e8c573/introduction/ngram/schema.xml
$cp schema.xml $SOLR/example/solr/conf/schema.xml

んで、起動りとらい


$java -jar start.jar

ばー   っと画面に文字が流れる。
INFO::Started の文字。
こんどこそ、、、 いけたか!?

Solr adminに再びアクセスしてみます。

・・・

HTTP ERROR 500

ド━━━(゜ロ゜;)━━ン!!

ログを見ろよ とか書いてあるけど、ログが見つからない。
もう寝るわ。



関連記事

Comment





Comment



*