广告广告
  加入我的最爱 设为首页 风格修改
首页 首尾
 手机版   订阅   地图  繁体 
您是第 6625 个阅读者
 
发表文章 发表投票 回覆文章
  可列印版   加为IE收藏   收藏主题   上一主题 | 下一主题   
osmaiwinner 手机
个人文章 个人相簿 个人日记 个人地图
初露锋芒
级别: 初露锋芒 该用户目前不上站
推文 x0 鲜花 x19
分享: 转寄此文章 Facebook Plurk Twitter 复制连结到剪贴簿 转换为繁体 转换为简体 载入图片
推文 x0
[求助] 最近想学写自动抓文PO文程式
最近想学写自动抓文PO文程式
例如自动抓取新闻文章然后PO在自己的部落格 ..

访客只能看到部份内容,免费 加入会员 或由脸书 Google 可以看到全部内容



献花 x0 回到顶端 [楼 主] From:欧洲 | Posted:2011-02-20 22:54 |
ebolaman 手机 会员卡
个人文章 个人相簿 个人日记 个人地图
特殊贡献奖

级别: 副版主 该用户目前不上站
版区: 程式设计
推文 x38 鲜花 x458
分享: 转寄此文章 Facebook Plurk Twitter 复制连结到剪贴簿 转换为繁体 转换为简体 载入图片

大概要朝 HTML 解码前进

用 软体 Notepad++  将 Html 码放进去 并选 程式语言 Html
或是用 Google Chrome 开启网页,点右键 >> 检查元素 也很好用

就会发现 Html 中是一块一块的,这与程式码的构造很相似


那么写程式就会简单多了,只要连线到想要的该网页 (只要封包,不要元件),读取 Html 原始码

再读取区块的开头构造, a href.... table..... tr.... 之类的


有个软体可以去参考: 瑞士刀

可以把网页以及包含超连结的 分支网页 抓下来

至于该用哪个程式,我没办法给你明确的答案


My BOINC stats :

献花 x0 回到顶端 [1 楼] From:台湾台湾宽频 | Posted:2011-02-26 08:32 |

首页  发表文章 发表投票 回覆文章
Powered by PHPWind v1.3.6
Copyright © 2003-04 PHPWind
Processed in 0.061112 second(s),query:16 Gzip disabled
本站由 瀛睿律师事务所 担任常年法律顾问 | 免责声明 | 本网站已依台湾网站内容分级规定处理 | 连络我们 | 访客留言