html文件中提取网页链接C++实现方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

// htmltotxt.cpp : 定义控制台应用程序的入口点。//

//#include "stdafx.h"

#include

#include

#include

using namespace std;

int main(int argc, char **argv[])

{

ifstream in("html文件路径");

if(!in)

{

cout<<"文件打开失败";

}

char buf[1500];//若缓冲数组不够,可以加长

string src = "";

while(!in.eof())

{

in.getline(buf,sizeof(buf));

if(strlen(buf) == 0)

{

continue;

}

src+=buf;

}

//可写入文件中

ofstream out("K:\\link.txt");

if(!out)

{

cout<<"文件打开失败"<

system("pause");

return 0;

}

in.close();

int b = 0;

int pos2 = 0;

while(true)

{

int pos1 = src.find("href=\"");

if(pos1<0)

break;

b = pos1;

int pos2 = src.find("\"",pos1+6);

if (pos2<0)

break;

string sub = src.substr(pos1+6,pos2-pos1-6);

src.erase(src.begin()+pos1,src.begin()+pos2+1);

if(sub[0] != 'h'&&sub[1] != 't'&&sub[0] != 't'&&sub[0] != 'p')

{

continue;

}

else

out<

}

system("pause");

return 0;

}

相关文档
最新文档