html文件中提取网页链接C++实现方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
// htmltotxt.cpp : 定义控制台应用程序的入口点。//
//#include "stdafx.h"
#include
#include
#include
using namespace std;
int main(int argc, char **argv[])
{
ifstream in("html文件路径");
if(!in)
{
cout<<"文件打开失败";
}
char buf[1500];//若缓冲数组不够,可以加长
string src = "";
while(!in.eof())
{
in.getline(buf,sizeof(buf));
if(strlen(buf) == 0)
{
continue;
}
src+=buf;
}
//可写入文件中
ofstream out("K:\\link.txt");
if(!out)
{
cout<<"文件打开失败"< system("pause"); return 0; } in.close(); int b = 0; int pos2 = 0; while(true) { int pos1 = src.find("href=\""); if(pos1<0) break; b = pos1; int pos2 = src.find("\"",pos1+6); if (pos2<0) break; string sub = src.substr(pos1+6,pos2-pos1-6); src.erase(src.begin()+pos1,src.begin()+pos2+1); if(sub[0] != 'h'&&sub[1] != 't'&&sub[0] != 't'&&sub[0] != 'p') { continue; } else out< } system("pause"); return 0; }