CommonsHttpClient では,同一ドメインの robots.txt は一度取得するとその後アクセスしないようになっていますが,
CommonsHttpClient#processRobotsTxt 内で出力している取得済みの旨のログが
これからアクセスするURLについての情報になっています.
これは,処理の内容からみて robots.txt の URL を出力するほうが正しいと思うのですが,いかがでしょう.
Index: src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java
===================================================================
--- src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java (revision 111)
+++ src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java (working copy)
@@ -157,7 +157,7 @@
// check url
if (robotContext.getRobotTxtUrlSet().contains(robotTxtUrl)) {
if (logger.isDebugEnabled()) {
- logger.debug(url + " is already visited.");
+ logger.debug(robotTxtUrl + " is already visited.");
}
return;
} else {
余談ですが,このログは URL へアクセスするに出力されるので,逆に robots.txt へアクセスしたときだけ
出力するようにした方が,アプリケーションの開発時にはうれしいかもしれません.
(DEBUG 出力なのでそのままでもいいような気もしますが...)