2ちゃんねるスレッド全文検索・・・ThreadSearch
2ちゃんねるスレッド全文検索・・・ThreadSearch
元スレ
1 :名無しさん@お腹いっぱい。:2008/02/27(水) 19:23:59 ID:LnN9ZP+r0.net
ttp://www.geocities.jp/cen_hp
他の2chブラウザと連携できるといいな
155 :cen ◆Am9xOgNMYE :2008/09/25(木) 00:30:22 ID:brnEV5SB0.net
>>154
そうです。
一時的に必要な領域です。
インデックスを参照するので、threadsearch.exe と同じディレクトリに
インデックスとほぼ同じ領域が必要です。
上ならDドライブです。
39 :cen ◆Am9xOgNMYE :2008/04/03(木) 00:53:32 ID:Cv07eAXJ0.net
>>37
なるほどです。
結果の前後のレスも気になるといえば、なる時もありますね。
そういうのがあれば便利かもしれないですね
444 :ひと:2010/06/06(日) 22:48:35 ID:6V53CzDL0.net
ワールドカップ開催したら、客はランドに交換するから安値のうちに買ったほうがいいかな?
169 :名無しさん@お腹いっぱい。:2008/10/01(水) 15:02:39 ID:YgQRkCXW0.net
しょうがないので各.txtを70から一つずつ減らして確かめたところ
各52.txtまでread_list.txt出来ました。(各53.txtを戻したり消したりで2回確認)
各53.txtにするとCPU99%から25秒ほどで0%になりread_list.txtも出来ないまま「インデックス読み込み中」表示
PC搭載実搭載メモリ2GB、windowsxp sp3 NTFSオプションデフォルトフォーマット
file_list_0.txt〜52.txt=4,739,593(4,820,992)バイト、file_list_53.txt=89,455(90,112)バイト
file_time_0.txt〜52.txt=651,264(651,264)バイト、file_time_53.txt=12,288(12,288)バイト
memory_0.txt〜52.txt=1,409,772,627(1,409,880,064)バイト、memory_53.txt=20,298,710(20,299,776)バイト
括弧()内はエクスプローラでファイルのプロパティを見たときのディスク上のサイズって方です。
各52.txtまでで1.31GB、53.txtを増やしても1.33GB。
自分で書き出してみたけど搭載メモリ容量はread_list.txtが作られないのに関係無さそう。
古いDATは9桁とかjaneのログフォルダにあったりますが関係ないんでしょうね。
file_list_52.txt・53txtとfile_time_52.txt・53txtに9桁DATは出てきてないですし、
memory_52.txt・53txtは中見ても何々が書いてあるとは言えない暗号文ですね。
素人の書き出し&試しですが、何かの参考になれば幸いです。
60 :名無しさん@お腹いっぱい。:2008/05/06(火) 00:22:40 ID:bFXI3am60.net
うほっ
index版 キテタ-
なにやらまだ不完全ぽいですが、さっそく使わせてもらいます。
祭日中にとっても乙
85 :名無しさん@お腹いっぱい。:2008/06/02(月) 22:00:16 ID:xloWUVFk0.net
+ + ワクワクテカテカ
∧_∧ +
(0゜・∀・)
(0゜∪ ∪ + 急かしてないよ、ホントだよ?
と__)__) +
91 :名無しさん@お腹いっぱい。:2008/06/13(金) 22:13:22 ID:C4TWwqL/0.net
「バージョンくる」の意味が分からなかったのでグッてみた
ver・sion
━━ n. 翻訳, 訳書; (時にV-) (聖書の)…訳[版]; 解釈; 異説; (個人的な観点からの)説明; 翻案, 編曲.
425 :cen ◆Am9xOgNMYE :2010/02/27(土) 23:23:20 ID:xMg7J8zF0.net
>>423-424
レスありがとうございます。
2ちゃんねる互換ですか。
先程、次の環境で動きを見てみました。
—————————————————————————–
・ブラウザ
・JaneStyleを使用
・スレッドを閲覧してdatを取得
http://jbbs.livedoor.jp/bbs/read.cgi/computer/10298/1188963926/
・スレッド全文検索
・ボードデータをダウンロード
・検索フォルダにJaneStyleを選択
・bbsmenu.htmlの適当なカテゴリ(地震)に
「<A HREF=http://xxxx.xxx.xxx/xxxxxxxx/>【したらば】コンピュータ</A>」を追加して
スレッド全文検索を再起動
・インデックスを作成
—————————————————————————–
インデックスを作成することができ、板を選択した時の検索もできました。
bbsmenuにうまく登録すれば、したらばでも検索できますね。
方法は>>424のように専用ブラウザの板リストを使うことが考えられますが、
専用ブラウザに特化した方法でなく、なるべく多くのブラウザで使えそうな
方法でしたいと思ってます。
(今はログフォルダ名にアドレスか板名があれば、選択した板のフォルダと認識します。
たとえば、”【したらば】コンピュータ”など)
bbsmenuに無いものは個別で登録とかの方法かなと思ってます。
467 :cen ◆Am9xOgNMYE :2011/01/30(日) 16:55:49 ID:7ADWN3DSP.net
344 :名無しさん@お腹いっぱい。:2009/07/18(土) 17:32:56 ID:G73DfW4X0.net
227 :名無しさん@お腹いっぱい。:2009/01/29(木) 18:50:23 ID:SkFfiAxk0.net
14 :名無しさん@お腹いっぱい。:2008/03/07(金) 00:48:15 ID:zd9RAkN10.net
288 :名無しさん@お腹いっぱい。:2009/05/15(金) 00:18:06 ID:7AGrG0tM0.net
どうも古いの落としてたらしくて、最新版でインデックス再生成してみたのですが、
メモリー食いすぎてスワップしまくって重くなて死ぬかと思いましたww
今の時代はメモリーは安いし、もっとつめ!で済む話といえばそうなのですが。
インデックス作成中500MBくらいメモリーを食ってましたが、
参考までにこのソフトのインデックス作成、検索のアルゴリズムって何をおつかいなのでしょうか?
datEは検索エンジンはHyperEstraierで、N-Gram使用ということみたいですが…。
480 :cen ◆Am9xOgNMYE :2011/05/22(日) 04:55:09.48 ID:s9sXRGJf0.net
>>471
first.txt のとことは、ご指摘の通りの動作です。
設定を引き継ぐ部分は面倒だったので作ってません。
設定があれば新規設定画面を飛ばすのもいいかなと思ったり。
254 :cen ◆Am9xOgNMYE :2009/03/30(月) 00:21:51 ID:AjuTSkCd0.net
どうもです。
そういえば、追加検索フォルダで長いフォルダ名だと
全部表示されないですね。
作るときに気がつかなかったです。
10 :名無しさん@お腹いっぱい。:2008/02/28(木) 17:20:43 ID:Gggq9Nyh0.net
215 :名無しさん@お腹いっぱい。:2009/01/08(木) 13:28:44 ID:OE8ba5QD0.net
237 :名無しさん@お腹いっぱい。:2009/02/13(金) 21:17:35 ID:qrfSQQO00.net
328 :名無しさん@お腹いっぱい。:2009/06/15(月) 23:14:14 ID:L+SUd0B3P.net
あれ連投お許しをwww
約11%の削減率ですた(ノ∀・)アチャー
454 :名無しさん@お腹いっぱい。:2010/09/10(金) 14:00:07 ID:YxzfeFFf0.net
76 :名無しさん@お腹いっぱい。:2008/05/09(金) 23:39:32 ID:9tPKF/2D0.net
ああ、よく考えたらログフォルダ作って全部その下に移動させればいいのか
73 :cen ◆Am9xOgNMYE :2008/05/08(木) 23:32:00 ID:fy9YvlJe0.net
284 :名無しさん@お腹いっぱい。:2009/05/10(日) 22:51:28 ID:ZdxrF1nL0.net
何か最小化して終わるとウインドウの大きさが元に戻る
183 :名無しさん@お腹いっぱい。:2008/10/21(火) 21:38:20 ID:10UbYQZ/0.net
>176
>インデックスの構成と検索語により
あー、その張本人っす。
今回は無事に検索出来ました。
が、indexの更新が出来ないような・・・
勿論当方のログフォルダ内容構成等の問題はあるかもしれませんが、
プログラマ的にindexが更新出来ない理由が有るかもしれないので
ご報告しておきます。
相変わらず素人の報告で申し訳ありませんが、下記のようになってます。
renewフォルダが作られ、中にfile_list.txt
中身
D:¥Program Files¥Accessories¥2ch¥2chjanelog¥Logs¥2ch¥AA¥AAサロン¥1041132902.dat 1204642027 0
のようなテキストが766,859行ありfile_list.txt全容量79,437,535 バイト
index_file_list.txt
中身
D:¥Program Files¥Accessories¥2ch¥2chjanelog¥Logs¥2ch¥AA¥AAサロン¥1041132902.dat 1204642027 0
のようなテキストが766,817行あり、766,818行目から766,976行目まで
NULL NULL 748
となりindex_file_list.txt全容量79,435,120 バイト
renewnow.txt中身
0
が一文字で
「インデックス更新中・・・0%」のままバーがピロピロしてますがCPU使用率0%のまま orz
indexフォルダ17.7 GB
indexフォルダがある単独Fドライブ空き容量94.2GB
77 :名無しさん@お腹いっぱい。:2008/05/11(日) 01:14:04 ID:rI+U6KpG0.net
.NETじゃなくVCじゃ無理なの?
起動時、糞重くてしょうがないんだが
212 :名無しさん@お腹いっぱい。:2008/12/25(木) 23:26:47 ID:QZjrfIKY0.net
ログ容量とか検索ワード数とか、しょーもない制限しないで。
330 :cen ◆Am9xOgNMYE :2009/06/17(水) 00:47:29 ID:lzOTGmvO0.net
>>322-324
その機能は無いです。
すみませんが、ログのフォルダからURLを特定できないのです。
ブラウザによって推測はできますが、特定できる情報が無いのです。
あると便利だと思いますが、推測のURLを表示したりすることになります。
>>324
なるほどです。
そういうメモがあると便利かもしれないですね。
473 :名無しさん@お腹いっぱい。:2011/03/22(火) 22:38:26.71 ID:WuaCpPzH0.net
>>469
汎用的なgrepだと絞り込み(スレタイなどで)ができないし
こういうソフトがないなかーと思ってたので助かります
丁寧な作りでとても使いやすいです
ありがとう
97 :名無しさん@お腹いっぱい。:2008/06/25(水) 00:18:37 ID:YlNT0tor0.net
59 :名無しさん@お腹いっぱい。:2008/05/05(月) 23:34:43 ID:VS3MMtD80.net
>>55
あと、ウインドウ・サイズも覚えておいて欲しい。
.NET Framework ソフトとしては軽いので結構期待してる。
267 :cen ◆Am9xOgNMYE :2009/04/21(火) 00:30:48 ID:wKRsaCgv0.net
そういえば、使い方をもう少し詳しく書くのもいいかもしれない。
392 :名無しさん@お腹いっぱい。:2009/10/18(日) 22:34:32 ID:R5aRsDzQ0.net
345 :名無しさん@お腹いっぱい。:2009/07/18(土) 17:45:10 ID:Buu+6+Io0.net
せめてインデックスだけでも別ドライブに置けませんかね…
357 :名無しさん@お腹いっぱい。:2009/09/21(月) 01:22:18 ID:aiW2Q43E0.net
107 :名無しさん@お腹いっぱい。:2008/07/21(月) 01:11:23 ID:ZxbJSK1r0.net
テキストのフィルタが駄目すぎだなあ
IMEの件といい、ほんとMSは日本語に弱くなったな
514 :512:2013/05/18(土) 21:19:48.13 ID:0jV2++p1P.net
>>513
自分でも書き込んだの忘れてましたが(笑)レスあざす
了解しました
126 :cen ◆Am9xOgNMYE :2008/08/11(月) 18:37:08 ID:cL7eaFC40.net
できそうな気もしますが、壷を入れてdatをいろいろ見てみないと
いけないので、ちょっとめんどうかも。
それに今作ってるのやつがあらかた出来上がっているので。
139 :名無しさん@お腹いっぱい。:2008/09/14(日) 08:47:05 ID:ALOAkBNV0.net
ログの結果が、「日付+時間」のフォルダではなく、指定したフォルダに毎回上書きができるとありがたいです
333 :名無しさん@お腹いっぱい。:2009/06/17(水) 18:24:35 ID:7yptC7kI0.net
>>332
通常、URLからlogファイルパスを特定する時
ボード一覧からsrv+bbsに一致する部分があれば、そのカテゴリ、板名を取得するって感じだと思うのですが
逆にカテゴリ+板名から srv+bbsを取得するっていうのもできるんじゃないかなぁと。
専ブラのボード一覧とthreadsearchが取得したボード一覧が同じである必要性はありますが。
個人的には推測でもいいのでほしいところです。
482 :名無しさん@お腹いっぱい。:2011/05/24(火) 00:46:38.85 ID:Y0AOCbfr0.net
464 :名無しさん@お腹いっぱい。:2010/12/30(木) 10:52:02 ID:KBl5tJ8Y0.net
475 :名無しさん@お腹いっぱい。:2011/05/02(月) 13:33:29.55 ID:CQru3E+d0.net
505 :名無しさん@お腹いっぱい。:2012/05/13(日) 15:05:26.60 ID:AlXPWxC20.net
logが4Gくらいあるせいか結構インデックスの作成に時間かかるんだけど
差分だけ更新は出来ないの?
297 :cen ◆Am9xOgNMYE :2009/05/27(水) 18:15:57 ID:hz0lJh290.net
>>294
インデックスだけ別ドライブですか
今はソフトごと別の場所に移動しても問題なく使えます
>>296
NASだとWindowsでネットワークドライブの設定をすると、
普通のドライブと同じように使えるので、今はその方法で使ってください
217 :vCunucBaZEIINywiR:2009/01/09(金) 18:54:12 ID:lxRu2JV30.net
http://piqvelikoborodova.pochta.ru/russkiy-gey-film.html 肄
http://piqvelikoborodova.pochta.ru/posmotret-gey-filmy-besplatno.html 肄 砒
http://piqvelikoborodova.pochta.ru/seks-roliki-geev.html 肄裘
http://piqvelikoborodova.pochta.ru/gey-porno-roliki-newreply-php.html 肄 newreply php
http://piqvelikoborodova.pochta.ru/gey-film-ispytanie.html 肄 頌
http://piqvelikoborodova.pochta.ru/gei-porno-roliki-smotret.html 肄
http://piqvelikoborodova.pochta.ru/skachat-besplatnyy-gey-film.html 璞瑣 砒 肄
http://piqvelikoborodova.pochta.ru/skachat-besplatno-gey-hudozhestvennye-filmy.html 璞瑣 砒 肄 蒡趺粢
http://piqvelikoborodova.pochta.ru/gei-roliki-smotret-gest-html.html 肄 肄
http://piqvelikoborodova.pochta.ru/besplatno-porno-gey-roliki.html 砒 肄
http://piqvelikoborodova.pochta.ru/skachat-besplatno-film-pro-geev.html 璞瑣 砒 肄裘
http://piqvelikoborodova.pochta.ru/posting-gey-roliki.html posting 肄
http://piqvelikoborodova.pochta.ru/kupit-gey-filmy-showthread-php.html 肄 showthread php
http://piqvelikoborodova.pochta.ru/dvd-gey-filmy.html dvd 肄
http://piqvelikoborodova.pochta.ru/gey-roliki-besplatno.html 肄 砒
http://piqvelikoborodova.pochta.ru/besplatnoe-gey-rolik.html 砒 肄
http://piqvelikoborodova.pochta.ru/gey-video-roliki.html 肄 粨蒟
http://piqvelikoborodova.pochta.ru/gei-roliki.html 肄
http://piqvelikoborodova.pochta.ru/smotri-gey-porno-filmy-onlayn.html 肄 鳫
http://piqvelikoborodova.pochta.ru/luchshie-gey-filmy-onlayn.html 韃 肄 鳫
49 :cen ◆Am9xOgNMYE :2008/05/04(日) 06:42:57 ID:BcpREFdy0.net
151 :名無しさん@お腹いっぱい。:2008/09/23(火) 16:29:19 ID:D7MsH4va0.net
買い物から帰ってきたらおわってたー。
スレッド全文検索による計上でdatファイルが765,875個あった場合
24時間は掛からないと参考までに。
index作るのに掛かった時間をその回だけでいいから
どこかに記録残してくれると他者の参考になりそうなんだけどね。
66 :名無しさん@お腹いっぱい。:2008/05/07(水) 23:27:54 ID:RBk6c+cP0.net
初回indexを作ってからちゃんブラでログ取得して又indexを作らせて
みたら、初回と同じ位に時間が掛かっちゃいますね。
indexを作るってのはどのindex型でも、対象の追加があったらindexは
ゼロから作り直しになっちゃうのでしょうか?
161 :cen ◆Am9xOgNMYE :2008/09/29(月) 23:57:45 ID:503xbjDJ0.net
>>160
どうもです。
多分バグがあると思います。
インデックスの作成か読み込みにバグがあるのではと思います。
インデックス化する範囲を狭くするとうまくいくかもしれません
221 :名無しさん@お腹いっぱい。:2009/01/16(金) 08:17:09 ID:l0TZ3C460.net
現時点での検索精度はいかほどでしょうか?
例えば”きりたんぽ”で検索した場合、
文中に”きりたんぽ”という語句を含むスレを
何%程度抽出可能ですか?
レスを投稿する(名前省略可)