2ちゃんねるスレッド全文検索・・・ThreadSearch
- 1 :名無しさん@お腹いっぱい。:2008/02/27(水) 19:23:59 ID:LnN9ZP+r0
- ttp://www.geocities.jp/cen_hp
他の2chブラウザと連携できるといいな
- 84 :名無しさん@お腹いっぱい。:2008/06/01(日) 23:46:08 ID:63eV6hEF0
- 急がせてるwwwwwwwwwwww
- 85 :名無しさん@お腹いっぱい。:2008/06/02(月) 22:00:16 ID:xloWUVFk0
- + + ワクワクテカテカ
∧_∧ +
(0゜・∀・)
(0゜∪ ∪ + 急かしてないよ、ホントだよ?
と__)__) +
- 86 :名無しさん@お腹いっぱい。:2008/06/03(火) 14:01:04 ID:5GdvKxzv0
- Janeログをインデックス化して高速検索する「dat検索」 :教えて君.net
ttp://www.oshiete-kun.net/archives/2008/05/janedat.html
Datファイル全文検索ソフト DatE
ttp://frozenlib.net/DatE/
こっちが2.0ならむこうは3.5か…
誰かユーザーの事考えたC++製の全文検索ソフト作れよ
- 87 :名無しさん@お腹いっぱい。:2008/06/03(火) 14:31:24 ID:i98vc4zJ0
- Jane系に限定するならJaneViewでも使ってりゃいいじゃない
インデックスサーチなら他の100倍は早い
- 88 :名無しさん@お腹いっぱい。:2008/06/03(火) 20:13:08 ID:NItC+Ua+0
- ずっとJane使ってたら、メモリ使用量が300Mになった…
V2Cくらいメモリ使用量決められたらいいんだけどなぁ
- 89 :名無しさん@お腹いっぱい。:2008/06/07(土) 15:31:32 ID:6OP9T2Vu0
- 週末きたけどそろそろバージョンくる?
- 90 :名無しさん@お腹いっぱい。:2008/06/13(金) 22:02:47 ID:+0Vv0YEo0
- 週末くるけどそろそろバージョンくる?
- 91 :名無しさん@お腹いっぱい。:2008/06/13(金) 22:13:22 ID:C4TWwqL/0
- 「バージョンくる」の意味が分からなかったのでグッてみた
ver・sion
━━ n. 翻訳, 訳書; (時にV-) (聖書の)…訳[版]; 解釈; 異説; (個人的な観点からの)説明; 翻案, 編曲.
- 92 :名無しさん@お腹いっぱい。:2008/06/17(火) 00:56:18 ID:Xfg2HjBN0
- たぶん「そろそろバージョン」っていう新しいバージョンが来るんじゃマイカ?
- 93 :名無しさん@お腹いっぱい。:2008/06/21(土) 00:53:55 ID:yQj9zf0a0
- >86
バージョンこないから試してみようとしたけど起動しないや・・・
- 94 :名無しさん@お腹いっぱい。:2008/06/22(日) 14:26:00 ID:pB/qsvyu0
- 俺は白鴎院理人(はくおういんりひと)。 御茶ノ水に事務所を構える私立探偵だ。
俺は帝都を騒がす怪人物、蜘蛛男を追っている。 奴が目撃され始めたのは数週間前のこと。
はじめは酔客の間で交わされる噂話に過ぎなかった。 夜の帝都を飛び回る不気味な怪人物がいる。
路地裏で人を喰らっているところを見た。 こうした噂話は、帝都では珍しいものではない。
近代化を成し遂げ、震災から復興しても尚、 人々は夜の闇に怯え、怪しげな噂を作り出す。
だが、蜘蛛男の噂は一時に止まらず増え続けた。 それが低級雑誌で取り上げられるようになり、
最近では大新聞までもが蜘蛛男の記事を載せている。 こうなると警察も黙ってはいない。
多くの人員を割いて捜査に当たっているらしい。 しかし、今のところ蜘蛛男の逮捕には至っていない。
それどころか奴が何者で何の目的があるのかさえも、 未だ判明していないのだ。
奴が何者であったとしても、 帝都を騒がす怪人物を放っておくことはできまい。
そこで私立探偵である俺もまた、蜘蛛男を追っていた。 この俺が蜘蛛男を捕えてみせる。
\_____ _________________________________/
∨
___ _
/ ____ヽ /  ̄  ̄ \
| | /, −、, -、l /、 ヽ きみ頭だいじょうぶ?
| _| -|○ | ○|| |・ |―-、 |
, ―-、 (6 _ー っ-´、} q -´ 二 ヽ |
| -⊂) \ ヽ_  ̄ ̄ノノ ノ_ ー | |
| ̄ ̄|/ (_ ∪ ̄ / 、 \ \. ̄` | /
ヽ ` ,.|  ̄ | | O===== |
`− ´ | | _| / |
【 南極堂...断罪アイアンメイデン 】 http://www42.atwiki.jp/ironmaiden/
- 95 :cen ◆Am9xOgNMYE :2008/06/24(火) 19:11:24 ID:E9lO0sbvO
- どうもです。
ちょっと忙しくてできていないですが、
今はインデックスの方式を考え直しているところです。
- 96 :名無しさん@お腹いっぱい。:2008/06/25(水) 00:16:50 ID:EIbNz7bk0
- 待ってます
- 97 :名無しさん@お腹いっぱい。:2008/06/25(水) 00:18:37 ID:YlNT0tor0
- 待っています。
- 98 :名無しさん@お腹いっぱい。:2008/07/06(日) 13:26:22 ID:eE09r6G00
- みみずん検索とかは一瞬に近い状態で検索結果が出るけど
これは意外と時間かかるよね?
これってハードウェア性能の違い?それともindexの方式違い?
どっちが原因として大きいんだろ。
indexをRAMディスクに置いて、DATをRAID0・5・6に置いても
とても一瞬じゃ表示出来なそうだけど。
あ、従来の検索と比べたら遥かに恩の字ですから
ケチ付けてるんじゃなく素朴な疑問です。
- 99 :名無しさん@お腹いっぱい。:2008/07/06(日) 19:54:39 ID:y2E+4QJQ0
- >>98
何言ってる
- 100 :cen ◆Am9xOgNMYE :2008/07/06(日) 23:14:28 ID:q9kMgqrU0
- >>98
どうもです。
このソフトでは保存してる全てのログから、検索語を漏らすこと無く
検索するので他のものより遅いのではと思います。
ソフトの性能かもしれないです。
みみずん検索の仕組みがどういうものか知りませんが・・・
- 101 :名無しさん@お腹いっぱい。:2008/07/07(月) 00:57:51 ID:5BhNo3f50
- >100
あ、そっか。
みみずん検索は検索板を指定しましたね。
長期使ってないから全板検索だと勘違いしてました orz
- 102 :名無しさん@お腹いっぱい。:2008/07/08(火) 18:45:38 ID:7pqwNnqn0
- >>98
一般的なWebサーチエンジンは単語単位の検索結果をあらかじめ作ってる。
新しく見つけたページに「2ch」「モナー」という単語があったときは、2ch.txtとモナー.txtにそのページのアドレスを追加する。
「2ch モナー」で検索されたときは2ch.txtとモナー.txt両方に載っているアドレス一覧を表示するといった感じ。
ただし、ここでいう「単語」とはあらかじめリスト化されたものと機械的に認識されたものなので
でたらめな文字列で検索した場合は表示されない可能性もある。
- 103 :名無しさん@お腹いっぱい。:2008/07/09(水) 00:47:48 ID:cknHTRJD0
- >102
なるほど。
そうしちゃうと今より高速化はしてもindexが肥大しそうですね。
今は8.5Gのログに対しindexが3.2Gです。
- 104 :名無しさん@お腹いっぱい。:2008/07/13(日) 21:04:23 ID:TYBbxl0u0
- >>103
日本語対応の全文検索インデックスはでかいよー。
特に完全検索用のN-Gramインデックスは、たとえば「本日は晴天なり」って書いてあるテキストが
あったとすると
本日
日は
は晴
晴天
天な
なり
というそれぞれの文字列についてインデックスを作成する。
検索時には、たとえば「本日は」で検索されたら「本日」「日は」の両方にのっているファイルを
検索結果に表示する、という方式。
確実なんだけどでかい。
- 105 :名無しさん@お腹いっぱい。:2008/07/15(火) 15:00:25 ID:aKLBDNVH0
- みみずん氏でこんなもんか。
ttp://mimizun.com/spec.html
- 106 :名無しさん@お腹いっぱい。:2008/07/20(日) 02:22:48 ID:AbTJvetU0
- 「Windows Vista の検索において、語句が検索されない場合がある」
http://support.microsoft.com/kb/952003/ja
「アクセスコントロールリスト」 があるのに "コントロール"を検索できません。
これは仕様です。日本人はfindとかfindstrを使いなされ。
- 107 :名無しさん@お腹いっぱい。:2008/07/21(月) 01:11:23 ID:ZxbJSK1r0
- テキストのフィルタが駄目すぎだなあ
IMEの件といい、ほんとMSは日本語に弱くなったな
- 108 :名無しさん@お腹いっぱい。:2008/07/29(火) 11:45:39 ID:LDh0pw/C0
- そんなんだからMS社員がATOK使いたいとか言い出すんだ。
- 109 :名無しさん@お腹いっぱい。:2008/07/29(火) 18:21:33 ID:DRzfVr9G0
- 中国優先だからな
- 110 :名無しさん@お腹いっぱい。:2008/07/29(火) 19:00:16 ID:CDdAnnOZ0
- 優先というか、メイドインチャイナ
- 111 :cen ◆Am9xOgNMYE :2008/07/31(木) 01:33:49 ID:Au4b/2RR0
- こんばんは
>>104
このソフトのインデックス方法もそういう方法使ってますね。
- 112 :名無しさん@お腹いっぱい。:2008/08/02(土) 23:36:16 ID:fGnZ88+/0
- 屑HDにログ移行したんだけど、残り容量少なくてINDEX作りきれなかった orz
- 113 :cen ◆Am9xOgNMYE :2008/08/03(日) 23:09:35 ID:kqhImIQB0
- 今のところ、新しいindexの形式で、index作成と読み込みのテストが
できています。
更新部分を作る前に公開するかもしれません。
何時になるかは不明ですが。
>>112
実験では現在と比べて約40%のindex容量が削減できています。
今よりも多少はディスク容量を使わなくて済む予定です。
- 114 :名無しさん@お腹いっぱい。:2008/08/03(日) 23:16:21 ID:BhOIA6SJ0
- >>113
乙です
四割もすか、わくわくしながら待っています。
- 115 :名無しさん@お腹いっぱい。:2008/08/05(火) 00:44:24 ID:WlBy3GoL0
- ∧_∧ ttp://www.geocities.jp/cen_hp/
( ・∀・) ドキドキ
( ∪ ∪
と__)__)
- 116 :名無しさん@お腹いっぱい。:2008/08/05(火) 07:05:18 ID:YBb9bfzK0
- 禁断の壷のDATが検索できないようですが未対応ですか?
- 117 :名無しさん@お腹いっぱい。:2008/08/05(火) 19:08:19 ID:tQ0LETlx0
- ∧_∧
( ・∀・)ワクワク
oノ∧つ⊂)
( ( ・∀・)ドキドキ
∪( ∪ ∪
と__)__)
- 118 :名無しさん@お腹いっぱい。:2008/08/08(金) 17:59:32 ID:/1wQ4+P70
- ∧_∧
( ・∀・) ドキドキ
oノ∧つ⊂)
( ( ・∀・) ワクワク
oノ∧つ⊂)
( ( ・∀・)
∪( ∪ ∪
と__)__)
- 119 :名無しさん@お腹いっぱい。:2008/08/09(土) 06:06:28 ID:oXes19LT0
- ,、ァ
,、 '";ィ'
________ /::::::/l:l
─- 、::::;;;;;;;;;`゙゙''‐ 、 __,,,,......,,,,_/:::::::::/: !|
. : : : : : : `゙'ヽ、:::゙ヾ´::::::::::::::::::::::`゙゙゙'''‐'、. l|
、、 . : : : : : : : : r'":::::::::::::::::::::::::,r':ぃ::::ヽ::::::::ヽ!
.ヽ:゙ヽ; : : : : : :ノ::::::::::::::::::::-=・=-、゙::: -=・=-:'、
. \::゙、: : : :./::::::::::::::;、-''":::::::::: ,...,:::,::., :::':、
ヽ:ヽ、 /::::::::::::::::::::::::: _ `゙''‐''" __,,',,,,___
`ヽ、:::::::::;;;、、--‐‐'''''',,iニ- _| 、-l、,},,  ̄""'''¬-
_,,,、-‐l'''"´:::::::' ,、-'" ,.X,_,,、-v'"''゙''yr-ヽ / ゙゙'ヽ、, ゴリゴリゴリ・・・
,、-''" .l:::::::::::;、-''" ,.-' ゙、"| / 冫、 ヽ、
l;、-'゙: ,/ `| /| | /. \
,、‐゙ ヽ:::::..,.r'゙ (( // | | / ヽ. マズッ・・・
,、‐'゙ ン;"::::::. U .U / >>118
' //::::::::: {.
/ ./::::::::::::: ',
. / /:::::::::::::::::. ',.
- 120 :cen ◆Am9xOgNMYE :2008/08/10(日) 02:40:10 ID:iURE0WpC0
- >>116
どうもです。
検索できるのは、2chのサーバにあるそのままのdatファイル
のみになっています。
こんな感じのファイルです。
http://pc11.2ch.net/software/dat/1204107839.dat
- 121 :名無しさん@お腹いっぱい。:2008/08/10(日) 02:51:18 ID:3MKwS0Q50
- 壺のdatは少しだけ違うよな。生datではない
- 122 :名無しさん@お腹いっぱい。:2008/08/10(日) 05:29:10 ID:WVmYSL3q0
- >>120
そうですか・・・
壷はファイルの先端に今取得した時間と前取得した時間とレス数追記して
生DATとは違うファイルになってるから対応するのは面倒そうですね・・・
- 123 :名無しさん@お腹いっぱい。:2008/08/10(日) 05:36:29 ID:WVmYSL3q0
- 壷のDAT見た限り0x88(136バイト)目まで壷DAT用のヘッダー?に上のレスで書いたやつを追記してるみたいですね。
- 124 :名無しさん@お腹いっぱい。:2008/08/10(日) 05:56:58 ID:WVmYSL3q0
- 今手元の壷用DATの先端0x88(136バイト)を削ってDATでThreadSearchを使用して検索できた事を報告しておきます。
使用する時はこれでいきます。
素晴らしいソフトありがとうございます。
- 125 :名無しさん@お腹いっぱい。:2008/08/10(日) 22:06:13 ID:yPWwed/n0
- へぇ
Jane系だとメタ情報はidxファイルに分けるけどね
>>120
1行目の読み出し時に自動認識できそうな気がしますがいかがでしょうか?
- 126 :cen ◆Am9xOgNMYE :2008/08/11(月) 18:37:08 ID:cL7eaFC40
- できそうな気もしますが、壷を入れてdatをいろいろ見てみないと
いけないので、ちょっとめんどうかも。
それに今作ってるのやつがあらかた出来上がっているので。
- 127 :名無しさん@お腹いっぱい。:2008/08/13(水) 02:41:42 ID:ZgCCI6gx0
- 乙です
>あらかた出来上がっているので
わくわく
- 128 :cen ◆Am9xOgNMYE :2008/08/13(水) 19:08:16 ID:dHKGFOYl0
- スレッド全文検索を更新しました。
Ver 1.60になりました。
http://www.geocities.jp/cen_hp
更新点は以下です。
インデックスを改良して高速に作成、検索できるようにしました。
ウインドウサイズを記憶するようにしました。
検索結果の下ペインに上ペインのリンクを追加しました。
インデックス化の方法を変えたので、今までのものより
約2〜3倍 高速に検索できます。
場合によりそうでない時もありますが。
あと、インデックス作成時間も短くなりました。
詳しくはこちらを
http://www.geocities.jp/cen_hp/threadsearch.html
- 129 :名無しさん@お腹いっぱい。:2008/08/13(水) 21:16:58 ID:tyXgUR9P0
- キタ━━━ヽ(゚∀゚)ノ━( ゚∀)ノ━( ゚)ノ━ヽ( )ノ━ヽ(゚ )━ヽ(∀゚ )ノ━ヽ(゚∀゚)ノ━━━!!
へ ) ( ノ ( )ノ ( ) へ ) へ ) へ )
> > < < < > >
- 130 :名無しさん@お腹いっぱい。:2008/08/13(水) 21:25:48 ID:tyXgUR9P0
- えーすまん。
>詳しくは
と、readme.txtを見たけど、INDEXの追加作成は可能になったの?
- 131 :cen ◆Am9xOgNMYE :2008/08/13(水) 22:55:06 ID:dHKGFOYl0
- >>130
すみません。
書いてなかったです。
今回のバージョンでは追加(更新)の機能は付いていないです。
次回で付ける予定です。
- 132 :名無しさん@お腹いっぱい。:2008/08/13(水) 22:56:38 ID:tyXgUR9P0
- >131
ありゃ残念。
でも次回更新を楽しみに待ちながらVer1.6使わせていただきます。
- 133 :名無しさん@お腹いっぱい。:2008/08/17(日) 17:23:51 ID:6fFreaBo0
- age
35 KB
[ 2ちゃんねる 3億PV/日をささえる レンタルサーバー \877/2TB/100Mbps]
■ おすすめ2ちゃんねる 開発中。。。 by FOX ★
このスレを見ている人はこんなスレも見ています。(ver 0.20)
“2ちゃんねる”専用ブラウザで閲覧したスレッドを全文検索できるソフト「スレッド全文検索」v1.00公開 [ニュース速報]
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 05.0.7.3 2008/07/26
FOX ★ DSO(Dynamic Shared Object)