オープンソースの全文検索ソフト

1 :はるお:02/11/01 03:28 ID:5yfQC/Z+.net
オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
 ビジネスソフト板のスレッドです。
 主に Windows のパッケージソフトについてのようです。

Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/

175 :名無しさん@お腹いっぱい:2006/12/19(火) 10:12:39 ID:9M7VxUKD.net

>>174
> が当たり前になってる今
なってねーよ。

58 :山崎 渉:03/07/15 11:33 ID:doz396Fq.net

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒‾|         山崎渉
   ‾ ̄ ̄ ̄ ̄

11 :mknmz w/kakasi:02/11/02 07:43 ID:0CRm6865.net

できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。

210 :login:Penguin:2011/12/11(日) 16:52:48.77 ID:SGJMDI+x.net

postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし

219 :login:Penguin:2016/02/22(月) 11:39:34.04 ID:qmaloGTy.net

自分はセナがいいよとか言われてた時代までしか知らん
ナマズは定番とかね

74 :login:Penguin:03/10/24 00:50 ID:06+8iSEx.net

ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。

54 :login:Penguin:03/05/18 23:15 ID:zVhF4GzV.net

>>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。

182 :login:Penguin:2007/02/02(金) 10:56:10 ID:RbpAhOyB.net

風博士ではRastが死亡認定された模様。

187 :login:Penguin:2007/02/08(木) 23:29:33 ID:xQE/x50H.net

対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。

89 :login:Penguin:04/02/15 01:33 ID:0Iqfu11q.net

Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。

130 :login:Penguin:04/02/19 13:25 ID:wXxKmQwW.net

なんか俺定義な話になっているような気が…

94 :login:Penguin:04/02/15 14:49 ID:QIqnUolY.net

>>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO

201 :login:Penguin:2008/09/08(月) 17:32:23 ID:NVWE6wto.net

InfoCrawlerとOmniFindってどう?

今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい.
ファイルドラッグできるフリーなシステムは見つからない.
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおk

と言う風に今は考えてるんだが、間違ってないよな?
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か…

218 :login:Penguin:2014/02/18(火) 01:12:04.63 ID:TuEYQrKl.net

全文検索サーバ: Fess 9.0.0 リリース

http://sourceforge.jp/projects/fess/news/24562

本当に、新機能の搭載待っていました。
ありがとう。ありがとう。

勝手に記念して、専用スレッドを作りました。

http://engawa.2ch.net/test/read.cgi/linux/1392653371/

136 :login:Penguin:04/02/22 13:35 ID:/tZPZccw.net

>>135
それはGNU grep 2.3以降の機能。

29 :login:Penguin:03/01/09 01:54 ID:d0cXwiPT.net

ウェー、ハッハッハ・・・

30 :login:Penguin:03/01/09 02:51 ID:OELvwRgE.net

2chは全部IP表示すればよい

159 :login:Penguin:2005/07/01(金) 11:36:50 ID:l6AY3eSM.net

>>158
そうなの?今はどうなの?

153 :login:Penguin:2005/04/20(水) 18:15:48 ID:lbPp4dex.net

心無いこと言うなよ。

5 :分かち書き、形態素解析など:02/11/01 03:50 ID:SkScjhB+.net

Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。

KAKASI – 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/

Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/

○参考リンク
 日本語全文検索での索引作成・検索アルゴリズム
 http://www-6.ibm.com/jp/software/data/cm/txt.html
 ASCII24 デジタル用語辞典 – 形態素解析
 http://yougo.ascii24.com/gh/60/006070.html

55 :山崎渉:03/05/22 01:54 ID:p4opmoqv.net

━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

150 :login:Penguin:2005/04/09(土) 10:49:16 ID:npNrboa/.net

>>149
試したことないけど

GNU Image-Finding Tool
http://www.gnu.org/software/gift/gift.html

イメージサーチャ for Java
http://www.sra.co.jp/people/m-asada/Isr4Java/

63 : :03/08/27 13:44 ID:6MpoQSIc.net

保守

105 :94:04/02/16 11:29 ID:jsLgsjIe.net

>>104
分かち書きは全文検索に必須ではないですよ
N-gramとか他にも方法はあるかと

123 :94:04/02/17 23:42 ID:PO7wP2QS.net

>>122
そういった要望がありそれを実現するための技術があるのは分かります
で、その技術で検索幅が広がるのはいいんです。ブレるのは検索パターンの方であって検索対象はfull textですから
ただ、ここで問題にしてるのは、そういった工夫によって検索漏れが生じるようなシステムが「全文検索」の名に値するかってこと
しかも検索漏れの原因が「INDEXに検索パターンがのってない」ってことにあるなら
「それって検索対象がfull textじゃないじゃん」つまり「全文検索ではない」と思う人がいてもおかしくない

まぁ、ここ数日で「全文検索」という用語がかなり曖昧に使われているのが分かって来たんで
厳密性を求めるのは野暮ってもんでしょう。そして日経Linuxが嘲笑されたのは、まさしくこの「野暮」が原因でしょうな

実は私もあの記事を読んで最初カチンと来た。馬鹿じゃねーのとも思った
だけど上で書いたように「全文検索」をgrepと同様、検索漏れのないシステムと考える人もいるとした場合、
野暮をおしてああ書くのは親切というか、良心的なんじゃないかと思い返したわけです

50 :login:Penguin:03/05/17 01:51 ID:QFNLcpTk.net

糞スレsage

33 : :03/02/14 02:48 ID:yOCzfEHx.net

さげ。

191 :login:Penguin:2007/02/14(水) 09:45:36 ID:URN3dXTi.net

H.E. も個人開発だけどね

32 :山崎渉:03/01/15 11:31 ID:1ScAb3I5.net

(^^)

26 :login:Penguin:03/01/09 01:21 ID:/apFqchb.net

>>417
一人釣れたようだぜにょろゆき

21 :login:Penguin:02/12/10 18:32 ID:znz9dPLe.net

>>19
FreeBSDをベースに開発している所からしてマニアックdayo!

22 :login:Penguin:03/01/06 11:24 ID:UrJ5pa0Z.net

ひさびさにmknmzちう…たぶん今日中にはIndexができているだろう。

@@ Processing gzip file … (using Compress::Zlib)
70/27876 – /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 – /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file …
72/27876 – /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file … (using Compress::Zlib)
73/27876 – /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 – /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています…

198 :login:Penguin:2008/01/08(火) 00:46:08 ID:XSbSibRZ.net

gonzuiみたいなのでVB6検索できるエンジンありませんかね?

VB6病発病したソースコードを手術しないといけないので
頼みます。

186 :login:Penguin:2007/02/08(木) 22:54:22 ID:WBqU/6bx.net

対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。

104 :login:Penguin:04/02/16 11:16 ID:fLalTCNO.net

>フレイズ検索云々を意識しなければならない点で変な気がします
日本語で分かち書き処理しないでどうやって処理するの?

160 :login:Penguin:2005/07/01(金) 12:15:01 ID:yhjcuNWo.net

>>159
> そうなの?今はどうなの?

…… (あきれている)

145 :login:Penguin:05/03/10 10:03:15 ID:dSBxBqCX.net

朱雀、v2 リリース
ttp://hoshizawa.no-ip.com/suzaku/

31 :login:Penguin:03/01/09 03:38 ID:Oi0l0YhT.net

>97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。

34 :名無しさん:03/02/14 11:13 ID:s4GMqEbm.net

あげ

51 :login:Penguin:03/05/18 21:04 ID:O2VOjsal.net

>>43
Perl用APIあるみたいよ。

15 :げた:02/11/08 20:25 ID:vI4VdcAe.net

こんなの、どーよ? http://geta.ex.nii.ac.jp/

172 :login:Penguin:2006/01/30(月) 18:44:33 ID:OupapdHM.net

>>171
きたよ

75 :login:Penguin:03/10/24 03:35 ID:1jt/WYmb.net

なぜ Unix 板じゃないのか、と。

157 :login:Penguin:2005/06/19(日) 18:11:43 ID:8H2hS4Uc.net

GETAって説明見るかぎりではよさげだけど

223 :login:Penguin:2017/12/29(金) 14:39:05.17 ID:S/CsVkMC.net

誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

78TOY3CJA0

19 :login:Penguin:02/12/07 20:28 ID:pomc3oIV.net

>>15 GETA って scheme や Haskell との interface も考えてたりして、 ちょっとマニアックかも

180 :login:Penguin:2007/02/01(木) 15:07:34 ID:OTOWAPaF.net

>>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。

170 :login:Penguin:2005/12/05(月) 09:54:08 ID:gHetzDlJ.net

Nutchってその辺どうしてるんだろ?

113 :login:Penguin:04/02/16 20:37 ID:IioubxCd.net

そんなに全文検索がいいなら おれが書いてやるよ。
#! /bin/sh
grep $1 /

121 :94:04/02/17 01:37 ID:PO7wP2QS.net

>>119
馬場さんのページってこれですよね
http://www.kusastro.kyoto-u.ac.jp/‾baba/wais/
http://www.kusastro.kyoto-u.ac.jp/‾baba/wais/other-system.html
私の見落としかもしれませんが、ここには全文検索システムの定義は
無いように思います。定義部分を教えてくれませんか

ちなみに「全文検索とは」でぐぐったらこんなのがありました
「漏れなく」なんてあるから私の見方に近いかも
http://www.rosei.or.jp/ISearch/help/user/japanese/is-us02/is-us007.htm

>>115さんの言うキーワード検索の用例もありました
つーか一般的な用法みたいですね失礼しました
http://www.ftsanet.com/dbtokyo02/Db02.htm
http://magazine.fujitsu.com/vol48-3/3-2.html
http://panasonic.biz/it/patlics/faq_1.html

つまり全文検索=フリーワード検索ってことでFA?
ん?それってやっぱりINDEX検索単独じゃ全文検索じゃないってことか?

詳しい方、スパっと疑問を解決してくだされ

参考になったらSNSでシェアお願いします!

レスを投稿する(名前省略可)

この記事を読んだ方へのおすすめ

  • GTK+プログラミング

    元スレ 1 :login:Penguin:2007/09/05(水) 13:58:46 ID:2SORZMjm.net GUIツールキットであるGTK+とその周辺技術についてのスレッド -前スレ- http://pc11…

  • 2ch ブラウザ JD 20

    元スレ 1 :login:Penguin:2018/01/21(日) 20:56:56.36 ID:kBcU7xWO.net JD は gtkmm/GTK+ を用いた2chブラウザです。 公式 http://jd4lin…

  • [test] 書き込みテスト_04

    元スレ 1 :名無しさん@お腹いっぱい。:2018/06/28(木) 08:37:49.08 ID:G9lwFPDW0.net test 12 :名無しさん@お腹いっぱい。:2018/06/29(金) 01:28:10.…

  • 【Raspberry Pi】ラズベリー・パイ part51【ARM】

    元スレ 1 :login:Penguin:2019/12/20(金) 14:48:20.32 ID:2xJUQQwy.net Raspberry Piシリーズはクレジットカードサイズのコンピュータ。いろいろな用途に使えま…

  • GB/GBC/GBA エミュレーター総合スレ1

    元スレ 1 :名無しさん@お腹いっぱい。 :2018/07/20(金) 19:03:00.73 .net VisualBoyAdvance-M 公式サイト https://vba-m.com/ https://githu…

  • 【軽量】MP3プレイヤー Fittle Part12【国産】

    元スレ 1 :名無しさん@お腹いっぱい。:2012/10/13(土) 15:20:27.39 ID:NVu1gDcZ0.net 国産のシンプル且つ軽量なWindows用オープンソース音楽プレイヤー Fittle とその派…

  • JaneView Part90

    元スレ 1 :名無しさん@お腹いっぱい。:2014/09/28(日) 11:52:23.05 ID:VKmtBagT0.net □はじめに   画像ビューア、多くの機能が追加されたOpenJane派生の2ちゃんねるブラウ…

  • 【翻訳】 ATLAS V14 【富士通】

    元スレ 1 :名無しさん@お腹いっぱい。:2008/01/12(土) 20:41:54 ID:UtF/joXZ0.net ATLAS V14 -プロユースの本格英日・日英翻訳ソフトウェア  http://software…

  • Vivaldiブラウザ Part33

    元スレ 1 :名無しさん@お腹いっぱい。 :2018/12/30(日) 20:50:04.23 ID:e6RELnjr0.net !extend:on:vvvvv:1000:512 !extend:on:vvvvv:10…

  • ザ・ベンチ IE Firefox Opera Safari Chrome [2]

    元スレ 1 :名無しさん@お腹いっぱい。:2014/05/15(木) 12:35:42.67 ID:Q68K2oQj0.net そのブラウザ遅くないか? さぁ、もっとベンチマークテストするんだ! SunSpider Ja…

  • 漫画用画像ビューア総合スレ Part16

    元スレ 1 :名無しさん@お腹いっぱい。 :2019/02/02(土) 18:34:44.46 ID:banMjbPl00202.net !extend:checked:vvvvv:1000:512 スレ建て時に !ex…

  • Net Transport Part 13

    元スレ 1 :名無しさん@お腹いっぱい。:2010/09/20(月) 03:47:44 ID:uRdI/dCb0.net ストリーミング保存できるダウンローダーです。 Net Transportオフィシャルページ htt…

最近のコメント

匿名 : 合同会社グラウンドステップ 被害者の会 part2
 吉川利幸さんが社長を務めるランサーズでの評価 すご... (5/05)
匿名 : Opera12(Presto) Part8
 Dragonflyが使えなくなったorg (6/25)
匿名 : あえてコマンドライン禁止のLinux
 いまではほとんどのディストリのインストで日本語環境までコマン... (6/15)
ページTOPへ↑