このブログは99%ののほほんと1%のお菓子でできています。
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
用語 | 説明 |
Apache Lucene | 全文検索エンジン |
Carrot2 | 検索結果クラスタリングエンジン、検索結果を分類して表示することが可能 |
Apache tika | javaからHTML、PDF、MSドキュメント等のファイルからデータ解析・抽出が可能 |
pdfbox | javaからPDFを操作するライブラリ |
poi | javaからMSドキュメントを操作するライブラリ |
UIMA |
構造化されていないドキュメントを解析して、情報や関連性を抽出する技術 (Unstructured Information Management Architecture) |
Apche UIMA | Apacheが提供するUIMA |
Apache Velocity | Javaのテンプレートエンジン。(JSPの変わりにつかえたりする) |
Apache ZooKeeper | 分散システムに対して、設定情報の集中管理や名前付け等を行う。 |
Jetty | JavaのWebAPサーバ。小型で組み込みなどに適している。 |
Apache Tomcat | JavaのWebAPサーバ。 |
JBoss | JavaのWebAPサーバ。EJB実行可能。Redhat社による有償サポート化も可能。 |
Apache ManifoldCF | web、ファイルサーバ、データベース等から情報を収集(クロール)し、検索サーバ等へデータを渡す。Solrと連携可能。 |
Fess | SolrとS2Robot を組み込んだ日本製の全文検索アプリケーション |
S2Robot | Seasar2を利用したWeb、ファイルシステム等かあ情報を収集(クロール)するフレームワーム。 |
Kuromoji | javaの日本語形態素解析エンジン。Solr3.6から標準で入っている。 |
COMMENT