正しいエンコーディングが取得できていない場合は、UTF-8 をデフォルトで使う。
コンテンツが取得できているのでエラーとして終了するのはもったいないと思います。
あと、Yahooのサイトでさえ、meta の charset を 1024 バイト以内に記述しないケースが
あるようなので、倍くらい見ておいた方が良いかも(すっきりしないけど)。
2009-08-17 01:17:13,268 [Robot-20090817000022210-3-2] ERROR org.seasar.robot.S2RobotThread - Crawling Exception at http://partner.yahoo.co.jp/jp/search/dashboard
org.seasar.robot.RobotSystemException: Could not parse http://partner.yahoo.co.jp/jp/search/dashboard
at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:81)
at org.seasar.robot.transformer.impl.HtmlTransformer.transform(HtmlTransformer.java:143)
at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:53)
at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:252)
at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:166)
at java.lang.Thread.run(Thread.java:619)
Caused by: java.io.UnsupportedEncodingException: ut
at sun.nio.cs.StreamDecoder.forInputStreamReader(StreamDecoder.java:52)
at java.io.InputStreamReader.<init>(InputStreamReader.java:83)
at org.cyberneko.html.HTMLScanner.setInputSource(HTMLScanner.java:895)
at org.cyberneko.html.HTMLConfiguration.setInputSource(HTMLConfiguration.java:478)
at org.cyberneko.html.HTMLConfiguration.parse(HTMLConfiguration.java:451)
at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:79)
... 5 more