Uploaded image for project: 'S2Robot'
  1. S2Robot
  2. ROBOT-45

正しいエンコーディングが取得できていない場合はUTF-8として扱う

XMLWordPrintable

    • Type: Icon: Bug Bug
    • Resolution: Fixed
    • Priority: Icon: Major Major
    • 0.1.0
    • Affects Version/s: None
    • Component/s: S2Robot
    • None

      正しいエンコーディングが取得できていない場合は、UTF-8 をデフォルトで使う。
      コンテンツが取得できているのでエラーとして終了するのはもったいないと思います。
      あと、Yahooのサイトでさえ、meta の charset を 1024 バイト以内に記述しないケースが
      あるようなので、倍くらい見ておいた方が良いかも(すっきりしないけど)。

      2009-08-17 01:17:13,268 [Robot-20090817000022210-3-2] ERROR org.seasar.robot.S2RobotThread - Crawling Exception at http://partner.yahoo.co.jp/jp/search/dashboard
      org.seasar.robot.RobotSystemException: Could not parse http://partner.yahoo.co.jp/jp/search/dashboard
          at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:81)
          at org.seasar.robot.transformer.impl.HtmlTransformer.transform(HtmlTransformer.java:143)
          at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:53)
          at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:252)
          at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:166)
          at java.lang.Thread.run(Thread.java:619)
      Caused by: java.io.UnsupportedEncodingException: ut
          at sun.nio.cs.StreamDecoder.forInputStreamReader(StreamDecoder.java:52)
          at java.io.InputStreamReader.<init>(InputStreamReader.java:83)
          at org.cyberneko.html.HTMLScanner.setInputSource(HTMLScanner.java:895)
          at org.cyberneko.html.HTMLConfiguration.setInputSource(HTMLConfiguration.java:478)
          at org.cyberneko.html.HTMLConfiguration.parse(HTMLConfiguration.java:451)
          at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
          at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
          at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:79)
          ... 5 more
      

            Assignee:
            shinsuke shinsuke
            Reporter:
            shinsuke shinsuke
            Votes:
            0 Vote for this issue
            Watchers:
            0 Start watching this issue

              Created:
              Updated:
              Resolved: