Xpoint
   [напомнить пароль]

парсер гугле на перл

Метки: [без меток]
2009-10-03 03:18:28 [обр] Иван[досье]

вот код парсера
<code>
#! /usr/bin/perl

use IO::Socket::INET;

$server = "google.com";
$port = 80;
$count = 0;
$search = "";
@found = ();
@dn = ();

if((@ARGV < 2)||(@ARGV > 8)||(@ARGV % 2 > 0)) { usage(); exit; }

$i = 0;
while($i < @ARGV)
{
if($ARGV[$i] eq "-s"){ $server = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-p"){ $port = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-r"){ $search = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-n"){ $count = $ARGV[$i+1]; }
else { print "Invalid key: ".$ARGV[$i]."\n"; exit; }
$i += 2;
}

if($search eq ""){ usage(); exit; }
$search =~ s/(.)/sprintf("%%%02x",ord($1))/eg;
if($server !~ /:[0-9]{2,5}$/){$server.=":$port";}

for($i = 0; $i < 10; $i++)
{
@temp = get_request($server,"search?filter=0&num=100&start=".$i.
"00&q=$search") =~ /(https?\:\/\/[a-z0-9\.\-\/\?\:\&\%\=\_]{5,})/gi;

$a = 0;
foreach $url (@temp)
{
if($url =~ /https?\:\/\/[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\/search\?q=cache:/i){ next; }
($domain) = $url =~ /^https?\:\/\/([a-z0-9\.\-]{5,})/i;
$f=0;foreach(@dn){if($_ eq $domain){$f++;last;}}if($f){next;}
push(@found, $url);
if($count){if(!--$count){$a++;last;}}
push(@dn,$domain);
}
if($a){last;}
}

foreach(@found){print "$_\n";}

sub get_request()
{
local $sock;
local $data = "";
local($server, $url) = ($_[0], $_[1]);
$sock = IO::Socket::INET->new($server) or return -2; # connection failed
print $sock "GET /$url HTTP/1.0\r\n\r\n";
while(<$sock>){$data .= $_;}
close $sock;
return $data;
}

sub usage()
{

print qq(
drmist's google parser v 0.8

usage: gparse.pl [-s <server>] [-p <port>] -r <request> [-n <number>]
<server> google server, default: google.com
<port> http-server port, default: 80
<requets> search request
<number> number of links, that will be shown, default: all
examples:
perl gparse.pl -r 'filetypehp inurlage=' | grep page=
perl gparse.pl -s google.ru:80 -r 'Powered by phpbb' -n 10
perl gparse.pl -s google.ru -p 80 -r 'site:com inurl:backup.sql'
perl gparse.pl -s google.de -r 'inurl:seite=' -n 400

);

}

</code>
вопрос в следующем. Как сделать чтобы скрипт делал запросы к гугле с определенного ip моего сервера. Я потом допишу чтобы запросы делались с разных ипов.

спустя 3 часа 3 минуты [обр] Fd(0/35)[досье]

REST::Google
JSON::XS
Hello World

а про gparse.pl забыть как про страшный сон.

спустя 17 часов [обр] Иван[досье]
я в этом что вы показали еще больше запутался. А последняя ссылка с хело ворд это что вобще?
спустя 2 часа 6 минут [обр] Иван[досье]
в приблуде разобрался. неужели она позволяет делать очень много запросов к гугле?
спустя 9 минут [обр] Иван[досье]
и этой приблудой много запросов не сделаешь, ограничение на ипы есть.
спустя 9 часов [обр] Евгений Седов aka KPbIC(0/176)[досье]
Как сделать чтобы скрипт делал запросы к гугле с определенного ip моего сервера
man 2 bind
perldoc-f bind
Powered by POEM™ Engine Copyright © 2002-2005