youtube-dl/youtube_dl/extractor/funk.py

# coding: utf-8
from __future__ import unicode_literals

import itertools
import re

from .common import InfoExtractor
from .nexx import NexxIE
from ..compat import compat_str
from ..utils import (
    int_or_none,
    try_get,
)


class FunkBaseIE(InfoExtractor):
    _HEADERS = {
        'Accept': '*/*',
        'Accept-Language': 'en-US,en;q=0.9,ru;q=0.8',
        'authorization': 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJjbGllbnROYW1lIjoid2ViYXBwLXYzMSIsInNjb3BlIjoic3RhdGljLWNvbnRlbnQtYXBpLGN1cmF0aW9uLWFwaSxuZXh4LWNvbnRlbnQtYXBpLXYzMSx3ZWJhcHAtYXBpIn0.mbuG9wS9Yf5q6PqgR4fiaRFIagiHk9JhwoKES7ksVX4',
    }
    _AUTH = 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJjbGllbnROYW1lIjoid2ViYXBwLXYzMSIsInNjb3BlIjoic3RhdGljLWNvbnRlbnQtYXBpLGN1cmF0aW9uLWFwaSxuZXh4LWNvbnRlbnQtYXBpLXYzMSx3ZWJhcHAtYXBpIn0.mbuG9wS9Yf5q6PqgR4fiaRFIagiHk9JhwoKES7ksVX4'

    @staticmethod
    def _make_headers(referer):
        headers = FunkBaseIE._HEADERS.copy()
        headers['Referer'] = referer
        return headers

    def _make_url_result(self, video):
        return {
            '_type': 'url_transparent',
            'url': 'nexx:741:%s' % video['sourceId'],
            'ie_key': NexxIE.ie_key(),
            'id': video['sourceId'],
            'title': video.get('title'),
            'description': video.get('description'),
            'duration': int_or_none(video.get('duration')),
            'season_number': int_or_none(video.get('seasonNr')),
            'episode_number': int_or_none(video.get('episodeNr')),
        }


class FunkMixIE(FunkBaseIE):
    _VALID_URL = r'https?://(?:www\.)?funk\.net/mix/(?P<id>[^/]+)/(?P<alias>[^/?#&]+)'
    _TESTS = [{
        'url': 'https://www.funk.net/mix/59d65d935f8b160001828b5b/die-realste-kifferdoku-aller-zeiten',
        'md5': '8edf617c2f2b7c9847dfda313f199009',
        'info_dict': {
            'id': '123748',
            'ext': 'mp4',
            'title': '"Die realste Kifferdoku aller Zeiten"',
            'description': 'md5:c97160f5bafa8d47ec8e2e461012aa9d',
            'timestamp': 1490274721,
            'upload_date': '20170323',
        },
    }]

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        mix_id = mobj.group('id')
        alias = mobj.group('alias')

        lists = self._download_json(
            'https://www.funk.net/api/v3.1/curation/curatedLists/',
            mix_id, headers=self._make_headers(url), query={
                'size': 100,
            })['_embedded']['curatedListList']

        metas = next(
            l for l in lists
            if mix_id in (l.get('entityId'), l.get('alias')))['videoMetas']
        video = next(
            meta['videoDataDelegate']
            for meta in metas
            if try_get(
                meta, lambda x: x['videoDataDelegate']['alias'],
                compat_str) == alias)

        return self._make_url_result(video)


class FunkChannelIE(FunkBaseIE):
    _VALID_URL = r'https?://(?:www\.)?funk\.net/channel/(?P<id>[^/]+)/(?P<alias>[^/?#&]+)'
    _TESTS = [{
        'url': 'https://www.funk.net/channel/ba/die-lustigsten-instrumente-aus-dem-internet-teil-2',
        'info_dict': {
            'id': '1155821',
            'ext': 'mp4',
            'title': 'Die LUSTIGSTEN INSTRUMENTE aus dem Internet - Teil 2',
            'description': 'md5:a691d0413ef4835588c5b03ded670c1f',
            'timestamp': 1514507395,
            'upload_date': '20171229',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        # only available via byIdList API
        'url': 'https://www.funk.net/channel/informr/martin-sonneborn-erklaert-die-eu',
        'info_dict': {
            'id': '205067',
            'ext': 'mp4',
            'title': 'Martin Sonneborn erklärt die EU',
            'description': 'md5:050f74626e4ed87edf4626d2024210c0',
            'timestamp': 1494424042,
            'upload_date': '20170510',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        'url': 'https://www.funk.net/channel/59d5149841dca100012511e3/mein-erster-job-lovemilla-folge-1/lovemilla/',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        channel_id = mobj.group('id')
        alias = mobj.group('alias')

        headers = self._make_headers(url)

        video = None

        # Id-based channels are currently broken on their side: webplayer
        # tries to process them via byChannelAlias endpoint and fails
        # predictably.
        for page_num in itertools.count():
            by_channel_alias = self._download_json(
                'https://www.funk.net/api/v3.1/webapp/videos/byChannelAlias/%s'
                % channel_id,
                'Downloading byChannelAlias JSON page %d' % (page_num + 1),
                headers=headers, query={
                    'filterFsk': 'false',
                    'sort': 'creationDate,desc',
                    'size': 100,
                    'page': page_num,
                }, fatal=False)
            if not by_channel_alias:
                break
            video_list = try_get(
                by_channel_alias, lambda x: x['_embedded']['videoList'], list)
            if not video_list:
                break
            try:
                video = next(r for r in video_list if r.get('alias') == alias)
                break
            except StopIteration:
                pass
            if not try_get(
                    by_channel_alias, lambda x: x['_links']['next']):
                break

        if not video:
            by_id_list = self._download_json(
                'https://www.funk.net/api/v3.0/content/videos/byIdList',
                channel_id, 'Downloading byIdList JSON', headers=headers,
                query={
                    'ids': alias,
                }, fatal=False)
            if by_id_list:
                video = try_get(by_id_list, lambda x: x['result'][0], dict)

        if not video:
            results = self._download_json(
                'https://www.funk.net/api/v3.0/content/videos/filter',
                channel_id, 'Downloading filter JSON', headers=headers, query={
                    'channelId': channel_id,
                    'size': 100,
                })['result']
            video = next(r for r in results if r.get('alias') == alias)

        return self._make_url_result(video)
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`# coding: utf-8`
			`from __future__ import unicode_literals`

[funk:channel] Improve byChannelAlias extraction (closes #17142) 2018-08-03 19:26:58 +02:00			`import itertools`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`import re`

[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`from .common import InfoExtractor`
			`from .nexx import NexxIE`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`from ..compat import compat_str`
[funk:channel] Improve extraction (closes #16285) 2018-04-26 22:45:52 +02:00			`from ..utils import (`
			`int_or_none,`
			`try_get,`
			`)`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00

			`class FunkBaseIE(InfoExtractor):`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`_HEADERS = {`
			`'Accept': '/',`
			`'Accept-Language': 'en-US,en;q=0.9,ru;q=0.8',`
			`'authorization': 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJjbGllbnROYW1lIjoid2ViYXBwLXYzMSIsInNjb3BlIjoic3RhdGljLWNvbnRlbnQtYXBpLGN1cmF0aW9uLWFwaSxuZXh4LWNvbnRlbnQtYXBpLXYzMSx3ZWJhcHAtYXBpIn0.mbuG9wS9Yf5q6PqgR4fiaRFIagiHk9JhwoKES7ksVX4',`
			`}`
			`_AUTH = 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJjbGllbnROYW1lIjoid2ViYXBwLXYzMSIsInNjb3BlIjoic3RhdGljLWNvbnRlbnQtYXBpLGN1cmF0aW9uLWFwaSxuZXh4LWNvbnRlbnQtYXBpLXYzMSx3ZWJhcHAtYXBpIn0.mbuG9wS9Yf5q6PqgR4fiaRFIagiHk9JhwoKES7ksVX4'`

			`@staticmethod`
			`def _make_headers(referer):`
			`headers = FunkBaseIE._HEADERS.copy()`
			`headers['Referer'] = referer`
			`return headers`

[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`def _make_url_result(self, video):`
			`return {`
			`'_type': 'url_transparent',`
			`'url': 'nexx:741:%s' % video['sourceId'],`
			`'ie_key': NexxIE.ie_key(),`
			`'id': video['sourceId'],`
			`'title': video.get('title'),`
			`'description': video.get('description'),`
			`'duration': int_or_none(video.get('duration')),`
			`'season_number': int_or_none(video.get('seasonNr')),`
			`'episode_number': int_or_none(video.get('episodeNr')),`
			`}`


			`class FunkMixIE(FunkBaseIE):`
			`_VALID_URL = r'https?://(?:www\.)?funk\.net/mix/(?P<id>[^/]+)/(?P<alias>[^/?#&]+)'`
			`_TESTS = [{`
			`'url': 'https://www.funk.net/mix/59d65d935f8b160001828b5b/die-realste-kifferdoku-aller-zeiten',`
			`'md5': '8edf617c2f2b7c9847dfda313f199009',`
			`'info_dict': {`
			`'id': '123748',`
			`'ext': 'mp4',`
			`'title': '"Die realste Kifferdoku aller Zeiten"',`
			`'description': 'md5:c97160f5bafa8d47ec8e2e461012aa9d',`
			`'timestamp': 1490274721,`
			`'upload_date': '20170323',`
			`},`
			`}]`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
			`mix_id = mobj.group('id')`
			`alias = mobj.group('alias')`

			`lists = self._download_json(`
			`'https://www.funk.net/api/v3.1/curation/curatedLists/',`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`mix_id, headers=self._make_headers(url), query={`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`'size': 100,`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`})['_embedded']['curatedListList']`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00
			`metas = next(`
			`l for l in lists`
			`if mix_id in (l.get('entityId'), l.get('alias')))['videoMetas']`
			`video = next(`
			`meta['videoDataDelegate']`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`for meta in metas`
			`if try_get(`
			`meta, lambda x: x['videoDataDelegate']['alias'],`
			`compat_str) == alias)`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00
			`return self._make_url_result(video)`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00

[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`class FunkChannelIE(FunkBaseIE):`
			`_VALID_URL = r'https?://(?:www\.)?funk\.net/channel/(?P<id>[^/]+)/(?P<alias>[^/?#&]+)'`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`_TESTS = [{`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`'url': 'https://www.funk.net/channel/ba/die-lustigsten-instrumente-aus-dem-internet-teil-2',`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`'info_dict': {`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`'id': '1155821',`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`'ext': 'mp4',`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`'title': 'Die LUSTIGSTEN INSTRUMENTE aus dem Internet - Teil 2',`
			`'description': 'md5:a691d0413ef4835588c5b03ded670c1f',`
			`'timestamp': 1514507395,`
			`'upload_date': '20171229',`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`},`
			`'params': {`
			`'skip_download': True,`
			`},`
[funk:channel] Improve extraction (closes #16285) 2018-04-26 22:45:52 +02:00			`}, {`
			`# only available via byIdList API`
			`'url': 'https://www.funk.net/channel/informr/martin-sonneborn-erklaert-die-eu',`
			`'info_dict': {`
			`'id': '205067',`
			`'ext': 'mp4',`
			`'title': 'Martin Sonneborn erklärt die EU',`
			`'description': 'md5:050f74626e4ed87edf4626d2024210c0',`
			`'timestamp': 1494424042,`
			`'upload_date': '20170510',`
			`},`
			`'params': {`
			`'skip_download': True,`
			`},`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`}, {`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`'url': 'https://www.funk.net/channel/59d5149841dca100012511e3/mein-erster-job-lovemilla-folge-1/lovemilla/',`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00			`'only_matching': True,`
			`}]`

			`def _real_extract(self, url):`
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`mobj = re.match(self._VALID_URL, url)`
			`channel_id = mobj.group('id')`
			`alias = mobj.group('alias')`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`headers = self._make_headers(url)`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00
[funk:channel] Improve extraction (closes #16285) 2018-04-26 22:45:52 +02:00			`video = None`

[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`# Id-based channels are currently broken on their side: webplayer`
			`# tries to process them via byChannelAlias endpoint and fails`
			`# predictably.`
[funk:channel] Improve byChannelAlias extraction (closes #17142) 2018-08-03 19:26:58 +02:00			`for page_num in itertools.count():`
			`by_channel_alias = self._download_json(`
			`'https://www.funk.net/api/v3.1/webapp/videos/byChannelAlias/%s'`
			`% channel_id,`
			`'Downloading byChannelAlias JSON page %d' % (page_num + 1),`
			`headers=headers, query={`
			`'filterFsk': 'false',`
			`'sort': 'creationDate,desc',`
			`'size': 100,`
			`'page': page_num,`
			`}, fatal=False)`
			`if not by_channel_alias:`
			`break`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`video_list = try_get(`
			`by_channel_alias, lambda x: x['_embedded']['videoList'], list)`
[funk:channel] Improve byChannelAlias extraction (closes #17142) 2018-08-03 19:26:58 +02:00			`if not video_list:`
			`break`
			`try:`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`video = next(r for r in video_list if r.get('alias') == alias)`
[funk:channel] Improve byChannelAlias extraction (closes #17142) 2018-08-03 19:26:58 +02:00			`break`
			`except StopIteration:`
			`pass`
			`if not try_get(`
			`by_channel_alias, lambda x: x['_links']['next']):`
			`break`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00
			`if not video:`
			`by_id_list = self._download_json(`
			`'https://www.funk.net/api/v3.0/content/videos/byIdList',`
			`channel_id, 'Downloading byIdList JSON', headers=headers,`
			`query={`
			`'ids': alias,`
			`}, fatal=False)`
			`if by_id_list:`
			`video = try_get(by_id_list, lambda x: x['result'][0], dict)`
[funk:channel] Improve extraction (closes #16285) 2018-04-26 22:45:52 +02:00
			`if not video:`
			`results = self._download_json(`
[funk] Fix extraction (closes #16918) 2018-07-06 18:49:36 +02:00			`'https://www.funk.net/api/v3.0/content/videos/filter',`
			`channel_id, 'Downloading filter JSON', headers=headers, query={`
[funk:channel] Improve extraction (closes #16285) 2018-04-26 22:45:52 +02:00			`'channelId': channel_id,`
			`'size': 100,`
			`})['result']`
			`video = next(r for r in results if r.get('alias') == alias)`
[funk] Add extractor (closes #14464) 2017-10-11 19:44:13 +02:00
[funk] Fix extraction and rework extractors (closes #15792) 2018-03-07 21:17:46 +01:00			`return self._make_url_result(video)`