获取结构化数据.

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实例

获取专利数据 获取EPG 数据
演示 ppt 及示例代码下载
http://storage.linuxce.cn/share/perlchina2009
谢谢各位领导!

结构化数据



perl ETL 过程

post/get 提交一个请求,返回记录列表 分析记录列表,依次获得细节记录 分析细节记录,抽取字段 创建文本记录或提交到数据库
ETL 用到的perl module

访问Internet

use LWP::UserAgent; use LWP::Simple; use HTML::Tree;

get
$uri = URI->new($tifpath); getstore( $uri->as_string, $localfile );
分析html 内容
my $tree = HTML::TreeBuilder->new; $tree->parse_file($file); foreach my $input ( $tree->look_down( _tag => 'input', type => 'hidden' ) ) { if ($input) { ... } } $tree->delete; # clear memory!

Html 文件分析

查询条件处理


use URI::QueryParam; use URI; use Time::localtime; use Time::Local;
use DBI;

数据库插入

获得请求内容

post
my $response = $browser->post( 'http://search.sipo.gov.cn/sipo/zljs/hyjs-jieguo.jsp', [ "recshu" => "200", "searchword" => uri_unescape($searchword), ... ] );
应用 perl 从internet 获取结构化数据
2009.9
内容

ETL(Extract,Transform,Load)介绍 ETL 用到的perl module ETL 用到的技术 perl ETL 过程 样例分析
搜索引擎 vs ETL

搜索引擎
Βιβλιοθήκη Baidu

静态页面 通用 不方便再加工 动态网页 需要很强的先验知识,很难做到通用 适合导入数据库做查询
相关文档
最新文档