[vuclip] Add extractor (Fixes #2735)

2014-04-21 15:23:30 +02:00 · 2014-04-21 15:23:30 +02:00 · aec74dd95a
parent 28746fbd59
commit aec74dd95a
2 changed files with 67 additions and 0 deletions
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -297,6 +297,7 @@ from .vine import VineIE
 from .viki import VikiIE
 from .vk import VKIE
 from .vube import VubeIE
 from .vuclip import VuClipIE
 from .washingtonpost import WashingtonPostIE
 from .wat import WatIE
 from .wdr import (
--- a/youtube_dl/extractor/vuclip.py
+++ b/youtube_dl/extractor/vuclip.py
@ -0,0 +1,66 @@
 from __future__ import unicode_literals
 import re
 from .common import InfoExtractor
 from ..utils import (
    compat_urllib_parse_urlparse,
    parse_duration,
    qualities,
 )
 class VuClipIE(InfoExtractor):
    _VALID_URL = r'http://(?:m)?\.vuclip\.com/w\?.*?cid=(?P<id>[0-9]+)'
    _TEST = {
        'url': 'http://m.vuclip.com/w?cid=843902317&fid=63532&z=1007&nvar&frm=index.html&bu=4757321434',
        'md5': '92ac9d1ccefec4f0bb474661ab144fcf',
        'info_dict': {
            'id': '843902317',
            'ext': '3gp',
            'title': 'Movie Trailer: Noah',
            'duration': 139,
        }
    }
    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')
        webpage = self._download_webpage(url, video_id)
        ad_m = re.search(
            r'''value="No.*?" onClick="location.href='([^"']+)'"''', webpage)
        if ad_m:
            urlr = compat_urllib_parse_urlparse(url)
            adfree_url = urlr.scheme + '://' + urlr.netloc + ad_m.group(1)
            webpage = self._download_webpage(
                adfree_url, video_id, note='Download post-ad page')
        links_code = self._search_regex(
            r'(?s)<div class="social align_c".*?>(.*?)<hr\s*/?>', webpage,
            'links')
        title = self._html_search_regex(
            r'<title>(.*?)-\s*Vuclip</title>', webpage, 'title').strip()
        quality_order = qualities(['Reg', 'Hi'])
        formats = []
        for url, q in re.findall(
                r'<a href="(?P<url>[^"]+)".*?>(?P<q>[^<]+)</a>', links_code):
            format_id = compat_urllib_parse_urlparse(url).scheme + '-' + q
            formats.append({
                'format_id': format_id,
                'url': url,
                'quality': quality_order(q),
            })
        self._sort_formats(formats)
        duration = parse_duration(self._search_regex(
            r'\(([0-9:]+)\)</span></h1>', webpage, 'duration', fatal=False))
        return {
            'id': video_id,
            'formats': formats,
            'title': title,
            'duration': duration,
        }