正しいエンコーディングが取得できていない場合は、UTF-8 をデフォルトで使う。
コンテンツが取得できているのでエラーとして終了するのはもったいないと思います。
あと、Yahooのサイトでさえ、meta の charset を 1024 バイト以内に記述しないケースが
あるようなので、倍くらい見ておいた方が良いかも(すっきりしないけど)。
2009-08-17 01:17:13,268 [Robot-20090817000022210-3-2] ERROR org.seasar.robot.S2RobotThread - Crawling Exception at http://partner.yahoo.co.jp/jp/search/dashboard org.seasar.robot.RobotSystemException: Could not parse http://partner.yahoo.co.jp/jp/search/dashboard at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:81) at org.seasar.robot.transformer.impl.HtmlTransformer.transform(HtmlTransformer.java:143) at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:53) at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:252) at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:166) at java.lang.Thread.run(Thread.java:619) Caused by: java.io.UnsupportedEncodingException: ut at sun.nio.cs.StreamDecoder.forInputStreamReader(StreamDecoder.java:52) at java.io.InputStreamReader.<init>(InputStreamReader.java:83) at org.cyberneko.html.HTMLScanner.setInputSource(HTMLScanner.java:895) at org.cyberneko.html.HTMLConfiguration.setInputSource(HTMLConfiguration.java:478) at org.cyberneko.html.HTMLConfiguration.parse(HTMLConfiguration.java:451) at org.apache.xerces.parsers.XMLParser.parse(Unknown Source) at org.apache.xerces.parsers.DOMParser.parse(Unknown Source) at org.seasar.robot.transformer.impl.XpathTransformer.storeData(XpathTransformer.java:79) ... 5 more