オープンソースの全文検索ソフト

1 :はるお:02/11/01 03:28 ID:5yfQC/Z+.net
オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
 ビジネスソフト板のスレッドです。
 主に Windows のパッケージソフトについてのようです。

Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/

175 :名無しさん@お腹いっぱい:2006/12/19(火) 10:12:39 ID:9M7VxUKD.net

>>174
> が当たり前になってる今
なってねーよ。

58 :山崎 渉:03/07/15 11:33 ID:doz396Fq.net

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒‾|         山崎渉
   ‾ ̄ ̄ ̄ ̄

11 :mknmz w/kakasi:02/11/02 07:43 ID:0CRm6865.net

できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。

210 :login:Penguin:2011/12/11(日) 16:52:48.77 ID:SGJMDI+x.net

postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし

219 :login:Penguin:2016/02/22(月) 11:39:34.04 ID:qmaloGTy.net

自分はセナがいいよとか言われてた時代までしか知らん
ナマズは定番とかね

74 :login:Penguin:03/10/24 00:50 ID:06+8iSEx.net

ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。

54 :login:Penguin:03/05/18 23:15 ID:zVhF4GzV.net

>>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。

182 :login:Penguin:2007/02/02(金) 10:56:10 ID:RbpAhOyB.net

風博士ではRastが死亡認定された模様。

187 :login:Penguin:2007/02/08(木) 23:29:33 ID:xQE/x50H.net

対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。

89 :login:Penguin:04/02/15 01:33 ID:0Iqfu11q.net

Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。

130 :login:Penguin:04/02/19 13:25 ID:wXxKmQwW.net

なんか俺定義な話になっているような気が…

94 :login:Penguin:04/02/15 14:49 ID:QIqnUolY.net

>>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO

201 :login:Penguin:2008/09/08(月) 17:32:23 ID:NVWE6wto.net

InfoCrawlerとOmniFindってどう?

今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい.
ファイルドラッグできるフリーなシステムは見つからない.
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおk

と言う風に今は考えてるんだが、間違ってないよな?
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か…

218 :login:Penguin:2014/02/18(火) 01:12:04.63 ID:TuEYQrKl.net

全文検索サーバ: Fess 9.0.0 リリース

http://sourceforge.jp/projects/fess/news/24562

本当に、新機能の搭載待っていました。
ありがとう。ありがとう。

勝手に記念して、専用スレッドを作りました。

http://engawa.2ch.net/test/read.cgi/linux/1392653371/

136 :login:Penguin:04/02/22 13:35 ID:/tZPZccw.net

>>135
それはGNU grep 2.3以降の機能。

29 :login:Penguin:03/01/09 01:54 ID:d0cXwiPT.net

ウェー、ハッハッハ・・・

30 :login:Penguin:03/01/09 02:51 ID:OELvwRgE.net

2chは全部IP表示すればよい

159 :login:Penguin:2005/07/01(金) 11:36:50 ID:l6AY3eSM.net

>>158
そうなの?今はどうなの?

153 :login:Penguin:2005/04/20(水) 18:15:48 ID:lbPp4dex.net

心無いこと言うなよ。

5 :分かち書き、形態素解析など:02/11/01 03:50 ID:SkScjhB+.net

Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。

KAKASI – 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/

Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/

○参考リンク
 日本語全文検索での索引作成・検索アルゴリズム
 http://www-6.ibm.com/jp/software/data/cm/txt.html
 ASCII24 デジタル用語辞典 – 形態素解析
 http://yougo.ascii24.com/gh/60/006070.html

55 :山崎渉:03/05/22 01:54 ID:p4opmoqv.net

━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

150 :login:Penguin:2005/04/09(土) 10:49:16 ID:npNrboa/.net

>>149
試したことないけど

GNU Image-Finding Tool
http://www.gnu.org/software/gift/gift.html

イメージサーチャ for Java
http://www.sra.co.jp/people/m-asada/Isr4Java/

63 : :03/08/27 13:44 ID:6MpoQSIc.net

保守

105 :94:04/02/16 11:29 ID:jsLgsjIe.net

>>104
分かち書きは全文検索に必須ではないですよ
N-gramとか他にも方法はあるかと

123 :94:04/02/17 23:42 ID:PO7wP2QS.net

>>122
そういった要望がありそれを実現するための技術があるのは分かります
で、その技術で検索幅が広がるのはいいんです。ブレるのは検索パターンの方であって検索対象はfull textですから
ただ、ここで問題にしてるのは、そういった工夫によって検索漏れが生じるようなシステムが「全文検索」の名に値するかってこと
しかも検索漏れの原因が「INDEXに検索パターンがのってない」ってことにあるなら
「それって検索対象がfull textじゃないじゃん」つまり「全文検索ではない」と思う人がいてもおかしくない

まぁ、ここ数日で「全文検索」という用語がかなり曖昧に使われているのが分かって来たんで
厳密性を求めるのは野暮ってもんでしょう。そして日経Linuxが嘲笑されたのは、まさしくこの「野暮」が原因でしょうな

実は私もあの記事を読んで最初カチンと来た。馬鹿じゃねーのとも思った
だけど上で書いたように「全文検索」をgrepと同様、検索漏れのないシステムと考える人もいるとした場合、
野暮をおしてああ書くのは親切というか、良心的なんじゃないかと思い返したわけです

50 :login:Penguin:03/05/17 01:51 ID:QFNLcpTk.net

糞スレsage

33 : :03/02/14 02:48 ID:yOCzfEHx.net

さげ。

191 :login:Penguin:2007/02/14(水) 09:45:36 ID:URN3dXTi.net

H.E. も個人開発だけどね

32 :山崎渉:03/01/15 11:31 ID:1ScAb3I5.net

(^^)

26 :login:Penguin:03/01/09 01:21 ID:/apFqchb.net

>>417
一人釣れたようだぜにょろゆき

21 :login:Penguin:02/12/10 18:32 ID:znz9dPLe.net

>>19
FreeBSDをベースに開発している所からしてマニアックdayo!

22 :login:Penguin:03/01/06 11:24 ID:UrJ5pa0Z.net

ひさびさにmknmzちう…たぶん今日中にはIndexができているだろう。

@@ Processing gzip file … (using Compress::Zlib)
70/27876 – /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 – /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file …
72/27876 – /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file … (using Compress::Zlib)
73/27876 – /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 – /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています…

198 :login:Penguin:2008/01/08(火) 00:46:08 ID:XSbSibRZ.net

gonzuiみたいなのでVB6検索できるエンジンありませんかね?

VB6病発病したソースコードを手術しないといけないので
頼みます。

186 :login:Penguin:2007/02/08(木) 22:54:22 ID:WBqU/6bx.net

対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。

104 :login:Penguin:04/02/16 11:16 ID:fLalTCNO.net

>フレイズ検索云々を意識しなければならない点で変な気がします
日本語で分かち書き処理しないでどうやって処理するの?

160 :login:Penguin:2005/07/01(金) 12:15:01 ID:yhjcuNWo.net

>>159
> そうなの?今はどうなの?

…… (あきれている)

145 :login:Penguin:05/03/10 10:03:15 ID:dSBxBqCX.net

朱雀、v2 リリース
ttp://hoshizawa.no-ip.com/suzaku/

31 :login:Penguin:03/01/09 03:38 ID:Oi0l0YhT.net

>97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。

34 :名無しさん:03/02/14 11:13 ID:s4GMqEbm.net

あげ

51 :login:Penguin:03/05/18 21:04 ID:O2VOjsal.net

>>43
Perl用APIあるみたいよ。

15 :げた:02/11/08 20:25 ID:vI4VdcAe.net

こんなの、どーよ? http://geta.ex.nii.ac.jp/

172 :login:Penguin:2006/01/30(月) 18:44:33 ID:OupapdHM.net

>>171
きたよ

75 :login:Penguin:03/10/24 03:35 ID:1jt/WYmb.net

なぜ Unix 板じゃないのか、と。

157 :login:Penguin:2005/06/19(日) 18:11:43 ID:8H2hS4Uc.net

GETAって説明見るかぎりではよさげだけど

223 :login:Penguin:2017/12/29(金) 14:39:05.17 ID:S/CsVkMC.net

誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

78TOY3CJA0

19 :login:Penguin:02/12/07 20:28 ID:pomc3oIV.net

>>15 GETA って scheme や Haskell との interface も考えてたりして、 ちょっとマニアックかも

180 :login:Penguin:2007/02/01(木) 15:07:34 ID:OTOWAPaF.net

>>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。

170 :login:Penguin:2005/12/05(月) 09:54:08 ID:gHetzDlJ.net

Nutchってその辺どうしてるんだろ?

113 :login:Penguin:04/02/16 20:37 ID:IioubxCd.net

そんなに全文検索がいいなら おれが書いてやるよ。
#! /bin/sh
grep $1 /

121 :94:04/02/17 01:37 ID:PO7wP2QS.net

>>119
馬場さんのページってこれですよね
http://www.kusastro.kyoto-u.ac.jp/‾baba/wais/
http://www.kusastro.kyoto-u.ac.jp/‾baba/wais/other-system.html
私の見落としかもしれませんが、ここには全文検索システムの定義は
無いように思います。定義部分を教えてくれませんか

ちなみに「全文検索とは」でぐぐったらこんなのがありました
「漏れなく」なんてあるから私の見方に近いかも
http://www.rosei.or.jp/ISearch/help/user/japanese/is-us02/is-us007.htm

>>115さんの言うキーワード検索の用例もありました
つーか一般的な用法みたいですね失礼しました
http://www.ftsanet.com/dbtokyo02/Db02.htm
http://magazine.fujitsu.com/vol48-3/3-2.html
http://panasonic.biz/it/patlics/faq_1.html

つまり全文検索=フリーワード検索ってことでFA?
ん?それってやっぱりINDEX検索単独じゃ全文検索じゃないってことか?

詳しい方、スパっと疑問を解決してくだされ

参考になったらSNSでシェアお願いします!

レスを投稿する(名前省略可)

この記事を読んだ方へのおすすめ

  • 【test】書き込みテスト_03

    元スレ 1 :名無しさん@お腹いっぱい。:2019/09/20(金) 11:00:12.28 ID:QdQzhrJc0.net 前スレ 【test】書き込みテスト_02 http://egg.5ch.net/test/r…

  • アーケードエミュレーターMAMEスレ 0.152

    元スレ 1 :雷マン:2020/07/23(木) 00:12:25.33 ID:dfcbxPjv0.net アーケードエミュレーターMAMEを語るスレです。 雑談も質問も統合でお願いします。ROM関連の話題は禁止です。 …

  • うぐぅ、Kanonもソフトウェアだよね?2本目

    元スレ 1 :あゆ:2006/07/15(土) 23:39:14 ID:EblyRAbx0.net          , -――-、――- 、        /           ヽ、       /  , ・ ニ二二…

  • 使ってるディストリビューションで人間性が分かる

    元スレ 1 :login:Penguin:02/11/06 00:01 ID:6A89Y8gc.net ディストリビューションごとに、どんな人間性の奴が多いか語ろうか。 111 :長岡京@NTFS ◆LlSETpkF7M…

  • 【test】書き込みテスト_04

    元スレ 1 :名無しさん@お腹いっぱい。:2019/11/20(水) 19:51:35.02 ID:6ZvH6UxS0.net 前スレ 【test】書き込みテスト_03 http://egg.5ch.net/test/r…

  • MX Linux 1

    元スレ 1 :login:Penguin:2019/04/08(月) 23:01:47.50 ID:648yKa3f.net https://mxlinux.org/ https://forum.mxlinux.org/…

  • 2chAPIProxy17

    元スレ 1 :名無しさん@お腹いっぱい。:2022/06/05(日) 04:39:11 ID:X0KHPoli0.net 前スレ 2chAPIProxy16 http://egg.5ch.net/test/read.cg…

  • Google Chrome 98

    元スレ 1 :名無しさん@お腹いっぱい。 :2018/09/22(土) 10:52:32.08 ID:JYx/OB7P0.net スレ立て時には本文の文頭に「!extend::vvvvv」を入れて立てて下さい。 Goog…

  • 冷蔵庫のuptimeって凄くない?

    元スレ 1 :login:Penguin:05/03/17 21:26:00 ID:CVyM4IQ9.net 俺は凄いと思うな。 116 :login:Penguin:2012/08/28(火) 12:32:23.21 …

  • Jane Style Part153

    元スレ 1 :名無しさん@お腹いっぱい。:2019/04/07(日) 13:01:31.98 ID:jjRU8m3v0.net 急にスレ番号が増えた(★スレを含んでいる)理由は 実質Windows版のみ(Win中心の板、…

  • 【仮想通貨】富士コインのスレ

    元スレ 1 :名無しさん@お腹いっぱい。:2014/05/31(土) 22:17:06.46 ID:1VJF0NuS0.net 公式サイト http://www.fujicoin.org/index-ja.html Cr…

  • 【おかえり】Craving Explorer 1.0.0 RC26

    元スレ 1 :名無しさん@お腹いっぱい。:2019/08/08(木) 00:36:49.09 ID:ua7JsWWL0.net □公式   Craving Explorer ttp://www.crav-ing.com/…

最近のコメント

匿名 : 【いちゃ部屋】株式会社SHIFT【5ch出張所】
 新入社員はわかいそう、 在宅勤務でe-ラニングうけとけ、 ... (6/18)
匿名 : 【残業代】福井 株式会社アスタ【未払い】
 プライド高いところあるけど清輝あるなら大丈夫や (5/28)
匿名 : 【残業代】福井 株式会社アスタ【未払い】
 プライド高いところあるけど清輝あるなら大丈夫か (5/07)
ページTOPへ↑