java爬取缺少信息-前端黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

黑洞官方问答小能手

491872

文章

252324972

访问

+关注

分类

暂无分类

日期归档

暂无数据

java爬取缺少信息

发布于2023-12-26 22:14 阅读(1037) 评论(0) 点赞(5) 收藏(0)

我目前正在自学网站爬行。我认为有两种方法可以从网站获取 html 代码，一种使用 InputStreamReader，一种使用 jsoup。我已经尝试过这两个，但似乎两者显示出不同的结果。

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.net.*;
import java.io.*;

public class crawling {
    public static void main(String args[]) {
        try {
            BufferedReader buf;
            String line;
            URL url = new URL("http://www.example.com");
            buf = new BufferedReader(new InputStreamReader(url.openStream()));

            while(buf.readLine() != null) {
                line = buf.readLine();
                System.out.println(line);
                if(line.contains("background-color:")) {
                    line = line.replace("background-color:", " ");
                    System.out.println("I GOT IT: "+ line);
                }
            }

            buf.close();
            System.out.println("\n\nEnd of Streaming\nUse Jsoup\n\n");
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        Document doc;
        try {
            doc = Jsoup.connect("http://www.example.com").get();
            System.out.println(doc);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

如果我运行上面的代码，控制台会显示以下内容：

<html>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    body {
        margin: 0;
        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
}
        width: 600px;
        padding: 50px;
        border-radius: 1em;
    a:link, a:visited {
        text-decoration: none;
    @media (max-width: 700px) {
            background-color: #fff;
I GOT IT:               #fff;
        div {
            margin: 0 auto;
            padding: 1em;
    }
</head>
<body>
    <h1>Example Domain</h1>
    domain in examples without prior coordination or asking for permission.</p>
</div>
</html>


End of Streaming
Use Jsoup


<!doctype html>
<html>
 <head> 
  <title>Example Domain</title> 
  <meta charset="utf-8"> 
  <meta http-equiv="Content-type" content="text/html; charset=utf-8"> 
  <meta name="viewport" content="width=device-width, initial-scale=1"> 
  <style type="text/css">
   body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;

    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 50px;
        background-color: #fff;
        border-radius: 1em;
}
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        body {
             background-color: #fff;
        }
        div {
            width: auto;
            margin: 0 auto;
            border-radius: 0;
            padding: 1em;
        }
    }
    </style> 
 </head> 
<body> 
 <div> 
  <h1>Example Domain</h1> 
  <p>This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission.</p> 
  <p><a href="http://www.iana.org/domains/example">More information...</a></p> 
  </div>   
 </body>
</html>

据此，使用InputStreamReader时似乎缺少一些信息......为什么会出现这种错误？
对我来说，使用 StreamReader 似乎比 jsoup 容易得多。但由于它似乎缺少一些信息，我觉得我别无选择，只能使用 jsoup。

所以我想知道：
1.为什么使用输入流缺少一些信息，以及如何修复它。
2.如果建议使用jsoup，我怎样才能做与使用输入流相同的事情，获取特定的字符串。我已经用谷歌搜索过了，但我在理解连接网址后要做什么时遇到了问题。

预先非常感谢您。

解决方案

buf.readLine()您通过在循环中调用两次来跳过备用行。

替换这个：

while(buf.readLine() != null) {
    line = buf.readLine();
    [...]

有了这个：

while((line = buf.readLine()) != null) {
    [...]

对于#2，JSoup 并不是真正的方法，您还需要处理许多其他情况。但如果你仍然想这样做，有一个很奇怪的方法：

Elements elems = doc.getElementsByTag("style"); //Select "style" element
for (Element elem : elems) {
    Node child = elem.childNode(0);
    String styleText = child.attr("data").replaceAll("background-color:\\s*#[a-f0-9]+;", ""); //Remove background color attribute
    child.attr("data", styleText); //Set the updated style back into the element
}
System.out.println(doc);

所属网站分类: 技术文章 > 问答

作者：黑洞官方问答小能手

链接：http://www.qianduanheidong.com/blog/article/533295/3af02143a59d38c7f9e3/

来源：前端黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

5 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

程序员的那些事(new)

window属性：controllers

如何用Idea或者webstorm跑一个Vue项目

“我对技术架构的理解与架构师角色的思考” 读后感

程序员狂怒：薪水被应届生倒挂了，很不爽，天王老子也别想留住我！

荐结合论文看Youtube推荐系统中召回和排序的演进之路（中）篇

11个编程接单的网站，你有技术就有收入，有收入就有女朋友《男盆友》

身为程序员——你还不知道这十几个网站？

让微信 8.0 「裂开」「炸弹」的特效代码来了

35岁的程序员：第20章，解脱

在IDEA 2020.3.1中部署Tomcat并且创建第一个web项目

电子书(new)

CSS3学习必备书籍（CSS3 实战）.pdf

CSS网站布局实录（第二版）.pdf

CSS禅意花园.pdf

HTML5权威指南.pdf

HTML5移动Web开发指南.pdf

零基础学HTML+CSS [第三版].pdf 下载

数据结构与算法 JavaScript 描述.pdf

客户端存储技术.pdf 下载

前端100本高清pdf电子书打包下载

深入理解HTML5：语义、标准与样式 PDF 下载

脚本(new)

压扁小鸟小游戏

.美女拼图游戏源码

JavaScript按键控制坦克移动

JavaScript打地鼠游戏

HTML5实现抓怪物小游戏

网页版-别踩白块游戏

网页版扫雷

HTML5实现拼图游戏

网页版2048

HTML5箭头射击游戏代码

博客(new)

全网最详细的nodejs卸载和安装教程

web期末大作业--网页设计 HTML+CSS+JS（附源码）

2024·2025年前端开发的就业现状及前景

基于天地图使用Leaflet.js进行WebGIS开发实战

记录｜C#主界面设计【Web风格】

Roundcube Webmail安装与配置完全指南

Spring Boot Web 应用请求响应太慢故障排查

Markdown 语法大全详解

uniapp前端实现微信支付（小程序、公众号H5、app）

pc端web网站使用第三方微信登录流程（web、js）

视频教程(new)

带你快速入坑ES6

0到1快速构建自己的后台管理系统

基于Element-UI二次封装业务组件-前端视频教程

基于WebAR实现3D任务书桌上跳舞

Tensorflow.js 实现垃圾分类

全方位入门git

六个案例学会响应式布局

Ajax实战案例之列表渲染

Phaser从0到1实战微信2D小游戏【钢琴方块】

元旦贺卡-前端视频教程

项目实战(new)

NodeJS+Express+MongoDB实战项目

打造仿小米电商网站

2020版uni-app项目实战

2020前端React项目实战

小程序全栈开发之喵喵交友

Vue实战项目之喵喵电影

实战项目之网易云

实战项目之头条

前端实战项目之幸福西饼

实战项目之拉勾网

问答(new)

无法应用 CSS，可能是因为 Bootstrap

不含当前目录的相对路径

是否可以将 HTML 插入 Wix 模板？

使用 html 和 jQuery 动态加载标签，并输入 Java 的输入

无法使输入类型=日期必填

如何使用 VBA 从网络下载表格？

为什么计数器没有增加

子级没有渲染父级的 %height 吗？[重复]

电话号码验证包含 +** ***-***-****（后面加上两位数的国家代码和 10 位数的手机号码）

jQuery Grid css 无法在 .net core 2 中加载

游戏(new)

jQuery坦克大战网页小游戏

JS俄罗斯方块游戏代码

Vue.js注意力大考验小游戏代码

HTML欢乐打地鼠小游戏

HTML5糖果消消乐闯关小游戏

扑克牌翻牌记忆小游戏

HTML翻牌小游戏代码

HTML5拉杆子过关小游戏代码

HTML5倾斜迷宫小游戏

HTML5五子棋小游戏

其他资源(new)

jQuery益智拼图游戏

HTML5制作的2048游戏

.小球撞击游戏源码

驴子跳跳网页游戏源码

.jQuery五子棋游戏

HTML5街头霸王游戏源码

.网页版台球小游戏

地图拼图游戏

HTML5中国象棋游戏

Maven+JSP+SSM+Mysql实现的音乐网站