Uploaded image for project: 'S2Robot'
  1. S2Robot
  2. ROBOT-22

robots.txt の取得済みのログの内容が不正確

XMLWordPrintable

    • Type: Icon: Bug Bug
    • Resolution: Fixed
    • Priority: Icon: Trivial Trivial
    • 0.1.0
    • Affects Version/s: None
    • Component/s: S2Robot
    • None

      CommonsHttpClient では,同一ドメインの robots.txt は一度取得するとその後アクセスしないようになっていますが,
      CommonsHttpClient#processRobotsTxt 内で出力している取得済みの旨のログが
      これからアクセスするURLについての情報になっています.
      これは,処理の内容からみて robots.txt の URL を出力するほうが正しいと思うのですが,いかがでしょう.

      Index: src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java
      ===================================================================
      --- src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java	(revision 111)
      +++ src/main/java/org/seasar/robot/client/http/CommonsHttpClient.java	(working copy)
      @@ -157,7 +157,7 @@
               // check url
               if (robotContext.getRobotTxtUrlSet().contains(robotTxtUrl)) {
                   if (logger.isDebugEnabled()) {
      -                logger.debug(url + " is already visited.");
      +                logger.debug(robotTxtUrl + " is already visited.");
                   }
                   return;
               } else {
      

      余談ですが,このログは URL へアクセスするに出力されるので,逆に robots.txt へアクセスしたときだけ
      出力するようにした方が,アプリケーションの開発時にはうれしいかもしれません.
      (DEBUG 出力なのでそのままでもいいような気もしますが...)

            Assignee:
            shinsuke shinsuke
            Reporter:
            bowez bowez
            Votes:
            0 Vote for this issue
            Watchers:
            0 Start watching this issue

              Created:
              Updated:
              Resolved: