danemacaulay · January 4, 2018 15:19 · danemacaulay · Jan 4, 2018
diff --git a/warc_fetcher.py b/warc_fetcher.py
 import gzip
 import json
 import requests
 from StringIO import StringIO

 def get_page_count(searchString):
    url = 'http://index.commoncrawl.org/CC-MAIN-2017-51-index?url={}&output=json&showNumPages=true'.format(searchString)
    resp = requests.get(url)
    return json.loads(resp.content)['pages']

 def search(searchString, page_number):
    url = 'http://index.commoncrawl.org/CC-MAIN-2017-51-index?url={}&output=json&page={}'.format(searchString, page_number)
    resp = requests.get(url)
    pages = [json.loads(x) for x in resp.content.strip().split('\n')]
    return pages

 def get_warc(page):
    offset, length = int(page['offset']), int(page['length'])
    offset_end = offset + length - 1
    prefix = 'https://commoncrawl.s3.amazonaws.com/'
    url = prefix + page['filename']
    resp = requests.get(url, headers={'Range': 'bytes={}-{}'.format(offset, offset_end)})
    raw_data = StringIO(resp.content)
    f = gzip.GzipFile(fileobj=raw_data)
    data = f.read()
    print data

 def get_all_warcs(searchString):
    page_count = get_page_count(searchString)
    for page_number in xrange(0, page_count):
        page_data_list = search(searchString, page_number)
        for page_data in page_data_list:
            get_warc(page_data)


 get_all_warcs('facebook.com/*')
	import gzip
	import json
	import requests
	from StringIO import StringIO

	def get_page_count(searchString):
	url = 'http://index.commoncrawl.org/CC-MAIN-2017-51-index?url={}&output=json&showNumPages=true'.format(searchString)
	resp = requests.get(url)
	return json.loads(resp.content)['pages']

	def search(searchString, page_number):
	url = 'http://index.commoncrawl.org/CC-MAIN-2017-51-index?url={}&output=json&page={}'.format(searchString, page_number)
	resp = requests.get(url)
	pages = [json.loads(x) for x in resp.content.strip().split('\n')]
	return pages

	def get_warc(page):
	offset, length = int(page['offset']), int(page['length'])
	offset_end = offset + length - 1
	prefix = 'https://commoncrawl.s3.amazonaws.com/'
	url = prefix + page['filename']
	resp = requests.get(url, headers={'Range': 'bytes={}-{}'.format(offset, offset_end)})
	raw_data = StringIO(resp.content)
	f = gzip.GzipFile(fileobj=raw_data)
	data = f.read()
	print data

	def get_all_warcs(searchString):
	page_count = get_page_count(searchString)
	for page_number in xrange(0, page_count):
	page_data_list = search(searchString, page_number)
	for page_data in page_data_list:
	get_warc(page_data)


	get_all_warcs('facebook.com/*')