CommonsHttpClient では,同一ドメインの robots.txt は一度取得するとその後アクセスしないようになっていますが,
CommonsHttpClient#processRobotsTxt 内で出力している取得済みの旨のログが
これからアクセスするURLについての情報になっています.
これは,処理の内容からみて robots.txt の URL を出力するほうが正しいと思うのですが,いかがでしょう.
Index: src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java =================================================================== --- src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java (revision 111) +++ src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java (working copy) @@ -157,7 +157,7 @@ // check url if (robotContext.getRobotTxtUrlSet().contains(robotTxtUrl)) { if (logger.isDebugEnabled()) { - logger.debug(url + " is already visited."); + logger.debug(robotTxtUrl + " is already visited."); } return; } else {
余談ですが,このログは URL へアクセスするに出力されるので,逆に robots.txt へアクセスしたときだけ
出力するようにした方が,アプリケーションの開発時にはうれしいかもしれません.
(DEBUG 出力なのでそのままでもいいような気もしますが...)