600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > java获取页面标签_java获取网页源代码后 提取标签内容……

java获取页面标签_java获取网页源代码后 提取标签内容……

时间:2019-06-13 17:11:45

相关推荐

java获取页面标签_java获取网页源代码后 提取标签内容……

java获取网页源代码后,提取标签内容……

关注:245答案:2mip版

解决时间 -02-01 09:11

提问者咏bù琂败

-01-31 13:49

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import .HttpURLConnection;

import .URL;

public class Getjson

{

public static void main(String []args)

{

String htmpath = null;

BufferedReader in = null;

InputStreamReader isr = null;

InputStream is = null;

PrintWriter pw = null;

HttpURLConnection huc = null;

String [] arr = new String[2];

arr[0]= "view-source:/view/61891.htm";

arr[1] = "view-source:/view/61891.htm";

for(int i=0;i<2;i++)

{

try {

htmpath = "d:\\test\\10"+i+".txt";

pw = new PrintWriter(htmpath);

URL url = new URL(arr[i]); //创建 URL

huc = (HttpURLConnection) url.openConnection();

is = huc.getInputStream();

isr = new InputStreamReader(is);

in = new BufferedReader(isr);

String line = null;

while (((line = in.readLine()) != null)) {

if (line.length() == 0)

continue;

pw.println(line);

}

}

catch (Exception e) {

System.err.println(e);

} finally { //无论如何都要关闭流

try {

is.close();

isr.close();

in.close();

huc.disconnect();

pw.close();

} catch (Exception e) {

}

}

}

}

}上面的可以提取网页源代码

但是我想知道怎么先用正则表达式,提取

标签的内容后,再写入.txt文本中。谢谢各位大侠

url写错了,应该是/view/61891.htm,提取出来的网页源代码好还是乱码

最佳答案

二级知识专家你可以浪但我不會等

-01-31 14:47

你可以去看看 Jsoup

全部回答

1楼是你的阿离

-01-31 16:13

同问。。。

我要举报

如果感觉以上信息为低俗/不良/侵权的信息,可以点下面链接进行举报,我们会做出相应处理,感谢你的支持!

点此我要举报以上信息!

推荐资讯

大家都在看

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。