Loading...

XML

Word

Printable

Type: Bug
Resolution: Fixed
Priority: Trivial
Fix Version/s: 0.1.0
Affects Version/s: None
Component/s: S2Robot
Labels:
None

CommonsHttpClient では，同一ドメインの robots.txt は一度取得するとその後アクセスしないようになっていますが，
CommonsHttpClient#processRobotsTxt 内で出力している取得済みの旨のログが
これからアクセスするURLについての情報になっています．
これは，処理の内容からみて robots.txt の URL を出力するほうが正しいと思うのですが，いかがでしょう．

Index: src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java
===================================================================
--- src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java	(revision 111)
+++ src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java	(working copy)
@@ -157,7 +157,7 @@
         // check url
         if (robotContext.getRobotTxtUrlSet().contains(robotTxtUrl)) {
             if (logger.isDebugEnabled()) {
-                logger.debug(url + " is already visited.");
+                logger.debug(robotTxtUrl + " is already visited.");
             }
             return;
         } else {

余談ですが，このログは URL へアクセスするに出力されるので，逆に robots.txt へアクセスしたときだけ
出力するようにした方が，アプリケーションの開発時にはうれしいかもしれません．
（DEBUG 出力なのでそのままでもいいような気もしますが...）

Assignee:: shinsuke
Reporter:: bowez
Votes:: 0 Vote for this issue
Watchers:: 0 Start watching this issue

Created:: 2009-07-13 20:26
Updated:: 2009-09-30 21:41
Resolved:: 2009-07-14 09:19

Details

Description

Attachments

Activity

People

Dates