// 简单爬虫算法伪代码
// 极品外公 2010.12.28
// qq:409242642
void run()
{
hashtable http_table; // 哈希表
queue txt_queue; // 队列
if ( download_http(url, txt) ) // 下载网页
{
get_keyword(txt, keyword); // 提取关键字
http_table.append(keyword, url); // 加入到索引表
txt_queue.enqueue(txt); // 入队
while( !txt_queue.is_empty() ) // 队列不为空
{
itxt = txt_queue.dequeue(); // 出队
foreach( iurl in itxt) // 遍历所有url
{
if ( download_http(iurl, iitxt) )
{
get_keyword(iitxt, ikeyword);
http_table.append(ikeyword, iurl);
txt_queue.enqueue(iitxt); // 入队
}
}
}
}
}
版权声明:本文为iteye_12029原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。