-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathcrawler_br_code.json
1 lines (1 loc) · 14.3 KB
/
crawler_br_code.json
1
{"paragraphs":[{"text":"%pyspark\n","user":"anonymous","dateUpdated":"2018-11-14T12:15:18+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542197718477_-352249759","id":"20181114-121518_1884750826","dateCreated":"2018-11-14T12:15:18+0000","status":"READY","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:1359"},{"user":"anonymous","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"python","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/python"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542197191767_-474998509","id":"20181114-120631_1633925871","dateCreated":"2018-11-14T12:06:31+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:712","text":"%pyspark\nimport boto3\nimport io\nfrom urllib.parse import urlparse\nfrom re import findall\nfrom warcio.archiveiterator import ArchiveIterator","dateUpdated":"2018-11-14T12:13:14+0000","dateFinished":"2018-11-14T12:13:14+0000","dateStarted":"2018-11-14T12:13:14+0000","results":{"code":"SUCCESS","msg":[]}},{"text":"%pyspark\n\ncontent_list = sc.sequenceFile(\"s3://megadados-alunos/data/web-brasil-small-coalesced\")\ncontent_list.count()","user":"anonymous","dateUpdated":"2018-11-14T12:37:53+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{}},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542197500467_1682585492","id":"20181114-121140_1584794685","dateCreated":"2018-11-14T12:11:40+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:801","dateFinished":"2018-11-14T12:39:23+0000","dateStarted":"2018-11-14T12:37:53+0000","results":{"code":"SUCCESS","msg":[{"type":"TEXT","data":"298039\n"}]},"runtimeInfos":{"jobUrl":{"propertyName":"jobUrl","label":"SPARK JOB","tooltip":"View in Spark web UI","group":"spark","values":["http://ip-172-31-70-120.ec2.internal:4040/jobs/job?id=2","http://ip-172-31-70-120.ec2.internal:4040/jobs/job?id=3"],"interpreterSettingId":"spark"}}},{"text":"%pyspark\nlista_capitais = [\"Rio Branco\", \"Maceió\", \"Macapá\", \"Manaus\", \"Salvador\", \"Fortaleza\", \"Brasília\", \"Vitória\", \"Goiânia\", \"São Luís\", \"Cuiabá\", \"Campo Grande\", \"Belo Horizonte\", \"Belém\", \n\"João Pessoa\", \"Curitiba\", \"Recife\", \"Teresina\", \"Rio de Janeiro\", \"Natal\", \"Porto Alegre\", \"Porto Velho\", \"Boa Vista\", \"Florianópolis\", \"São Paulo\", \"Aracaju\", \"Palmas\"]\n\nprint(content_list)","user":"anonymous","dateUpdated":"2018-11-14T13:20:13+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542197622805_-549699887","id":"20181114-121342_1498968859","dateCreated":"2018-11-14T12:13:42+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:1281","dateFinished":"2018-11-14T12:41:30+0000","dateStarted":"2018-11-14T12:41:30+0000","results":{"code":"SUCCESS","msg":[{"type":"TEXT","data":"MapPartitionsRDD[8] at mapPartitions at SerDeUtil.scala:244\n"}]}},{"text":"%pyspark\nsample_shard_list = content_list.take(1)\n\nfor item in sample_shard_list:\n print(item)\n \n#print(\"Number of shards: {}\".format(content_list.count()))","user":"anonymous","dateUpdated":"2018-11-14T13:02:23+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542199259049_-2006707701","id":"20181114-124059_1530600530","dateCreated":"2018-11-14T12:40:59+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:1608","dateFinished":"2018-11-14T13:02:16+0000","dateStarted":"2018-11-14T13:00:42+0000","results":{"code":"SUCCESS","msg":[{"type":"TEXT","data":"('http://crazykiwi.com.br/seen-comemora-primeiro-aniversario-com-grande-festa/', 'SEEN comemora primeiro aniversário com grande festa\\nHome\\nBEAUTY & FASHION\\nLIFESTYLE & WELLNESS\\nFOODS & DRINKS\\nFUN & CULT\\nTOUR & HOST\\nWORK & BUSINESS\\nAssinar\\nSEEN comemora primeiro aniversário com grande festa\\nem FOODS & DRINKS / por Marcus Frediani /\\nLocalizado no 23º andar do Tivoli Mofarrej, o restaurante terá ações durante toda a semana.\\nInaugurado há um ano, o restaurante e bar SEEN revolucionou a noite paulistana com um cardápio para ser compartilhado, ambiente concorrido e uma das vistas mais incríveis da cidade. Para celebrar o sucesso do primeiro ano, o SEEN organizou uma semana de programação especial que inclui drinks exclusivos com bartenders convidados, festa temática e jantar preparado com o chef William Ribeiro e convidados.\\nA comemoração será iniciada no dia 10 de setembro (segunda-feira). O Head Bartender do SEEN, Heitor Marin recebe Spencer Amareno Jr (Frank Bar), Kennedy Nascimento (ex-Riviera) e Ricardo Barreto (Diageo) no charmoso bar no centro do restaurante. Durante toda a noite os bartenders vão preparar clássicos da coquetelaria e drinks inéditos para os clientes e convidados. Entre as opções estão Brown Derby (Whiskey Bulleit Bourbon, Suco de Grapefruit e Xarope de Chocolate Amargo), Seventh Heaven #2 (Gin Tanqueray, Licor Marrasquino, Suco de Grapefruit e Hortelã); Tanky Panky (Tanqueray Ten, Vermute Tinto e Fernet branca); Bracer UP #66 (Ketel One, Triple Sec, Suco de limão Siciliano grelhado, Syrup de açúcar e Fever Tree Ginger Beer) entre outros.\\nNo dia 12 (quarta-feira), uma grande festa vai invadir o SEEN. Exclusiva para convidados, a festa terá a temática especial e contará com drinks de Heitor Marin e pratos preparados a quatro mãos, pelo Chef Olivier da Costa e William Ribeiro. Na pick up teremos a DJ Mariana (Mari Jay) que tocará os hits que marcaram a casa durante o primeiro ano com algumas participações especiais.\\nJá no dia 13 (quinta-feira) a cozinha do SEEN recebe a presença especial do time do Soul Kitchen para um jantar sustentável. Juntos com o Chef William Ribeiro a equipe irá preparar as entradas da noite dando uma nova cara a ingredientes que seriam descartados. Na noite, quem harmonizará o menu será Heitor Marin e Adriana Pino (vencedora da etapa Brasil do World Class Competition 2018). Para encerrar a comemoração, no dia 16 (domingo) o Brunch será comemorativo com surpresas gastronômicas para os clientes e o welcome drink com Tanqueray 10 para todos os clientes.\\nSERVIÇO: Sobre o SEEN\\nO restaurante tem a assinatura do chefpreneur Olivier da Costa, franco-português com 20 anos de carreira na Europa. Já o chef William Ribeiro, que trouxe toques brasileiros à mesa do SEEN, comanda a execução dos pratos com produtos de alta qualidade, ingredientes orgânicos e de fabricação artesanal.\\nPara privilegiar o skyline do 23º andar, os arquitetos do Estúdio Penha deixaram o grande salão sem paredes, destacando o bar central em 360o com detalhes em latão, do barman Heitor Marin, e o sofá de veludo de 65 metros, que contorna e emoldura a vista da cidade.\\nOutra atração é o sushi bar comandado pelo chef Massahiko Enohi, com balcão revestido por azulejos originais do artista pernambucano Francisco Brennand, garimpados pelo Estúdio Penha. No menu, culinária tradicional japonesa com toques contemporâneos e carta de saquês desenvolvida pela sommelière Yasmin Yonashiro.\\nAlém da gastronomia e coquetelaria, o Seen também aposta na música como atrativo e djs comandam as noites de segunda a sábado.\\nInformações e reservas Seen\\nFuncionamento: De segunda a quinta-feira das 19h à 1h, sexta-feira e sábado das 19h às 2h\\nTel.: 11 3146.5923\\nE-mail: reservas@seensp.com\\nSite: www.seensp.com\\nInstagram: @seensaopaulo\\nEndereço: Alameda Santos, 1437 – 23° andar\\nSão Paulo, Brasil\\n#seen\\n#tivolimofarrej\\n#chefwilliamribeiro\\n#heitormarin\\n#olivierdacosta\\nRelacionado\\nTags: chef William Ribeiro, Heitor Marin, Olivier da Costa, SEEN, Tivoli Mofarrej\\nTweet\\nDeixe um comentário\\nClique aqui para cancelar a resposta.\\nName (required)\\nEmail (will not be published) (required)\\nWebsite\\nCurta-nos no Facebook\\nPublicidade\\nPosts Recentes\\nProjeto Narizes de Plantão vence Prêmio Top Educacional Professor Mário Palmério 2018 da ABMES\\n17 de setembro de 2018\\nProcesso seletivo hi-tech: Companhia de Estágios investe em realidade virtual e escape game para testar candidatos\\n17 de setembro de 2018\\nSt. James lança Projeto Pratas da Casa\\n17 de setembro de 2018\\nNoite bem dormida e creme noturno: a parceria ideal para manter ou recuperar a saúde da pele\\n17 de setembro de 2018\\nTivoli apresenta uma nova unidade no Qatar: Souq Al Wakra Hotel Qatar by Tivoli\\n17 de setembro de 2018\\nSeiko apresenta a coleção “Premier” de relógios com proposta sustentável e tecnológica\\n14 de setembro de 2018\\nPalmolive expande sua Linha Natureza Secreta em sabonetes e entra no segmento de cabelos\\n13 de setembro de 2018\\nHidratação dos pés à cabeça: saiba como hidratar cada parte do corpo\\n13 de setembro de 2018\\nPublicidade\\nPosts Populares\\nMarcio Garcia e Andréa Santa Rosa lançam programa online \"Vida Funcional\" 19 comentários\\nEssencele Filler Profuse inova na prevenção e tratamento de rugas 12 comentários\\nProteicare, o botox capilar da HairShine 9 comentários\\nDecisão da Justiça suspende a oferta do aplicativo DU Speed Booster no Google Play Brasil 9 comentários\\nOití Suplementos - produtos de excelência para melhor qualidade de vida 6 comentários\\nSaldão de Eletro Pernambucanas inicia no primeiro fim de semana de abril 3 comentários\\nSPFW: micro e pequenos empreendedores participam da maior semana de moda do país 3 comentários\\nCurso de Pilates pelo país com a única PHD do Brasil Eliane Coutinho 2 comentários\\nSugestões da World Wine para o Natal 2 comentários\\nMemphis lança estojo com sabonetes glicerinados Ann Bow 2 comentários\\nNuvens de Tags\\nAvon BAND Black Friday campanha carnaval CERVEJA câncer Câncer de Mama descontos Dia das Crianças Dia das Mães dia dos namorados e-commerce Embratur EMPREENDEDORISMO entrada gratuita EUDORA Exposição Franquia férias grátis hambúrguer inauguração Instituto Brasileiro de Turismo) inverno Jogos olímpicos Ministério do Turismo Natal Natura O Boticário Olimpíada para crianças parceria PESQUISA pizza Promoção Páscoa receita Rio-2016 Samsung SBT teatro verão vinhos Vinicius Lummertz\\nPublicidade\\nPáginas\\nSobre\\nVenda de autopeças é técnica e exige conhecimento\\nCategorias\\nCategorias Selecionar categoria BEAUTY & FASHION FOODS & DRINKS FUN & CULT LIFESTYLE & WELLNESS Sem categoria TOUR & HOST WORK & BUSINESS\\nComentários Recentes\\ncurso fábrica de laços e tiaras: adoro esse casal, super família e ainda por cima cuidam da saúd…\\nCarol Capel: Concordo muito bom estudar fora.…\\nPaula: Quem fez curso de maquiagem pode fazer o cartão top?…\\nAssine nosso Feed\\nRSS\\nEncontre-nos nas redes sociais\\nCraky KiwiDivulgação de site de atualidades\\nCopyright © 2018 — CrazyKiwi. All Rights Reserved.\\nDesigned by\\n')\nNumber of shards: 298039\n"}]},"runtimeInfos":{"jobUrl":{"propertyName":"jobUrl","label":"SPARK JOB","tooltip":"View in Spark web UI","group":"spark","values":["http://ip-172-31-70-120.ec2.internal:4040/jobs/job?id=8","http://ip-172-31-70-120.ec2.internal:4040/jobs/job?id=9"],"interpreterSettingId":"spark"}}},{"text":"%pyspark\n\ndic_capitais = {}\n\nfor label in lista_capitais:\n dic_capitais[label] = content_list.filter(lambda x:label in x[1])\n","user":"anonymous","dateUpdated":"2018-11-14T13:11:37+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542199408328_1159983289","id":"20181114-124328_849867483","dateCreated":"2018-11-14T12:43:28+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:1737","dateFinished":"2018-11-14T13:13:54+0000","dateStarted":"2018-11-14T13:11:37+0000","results":{"code":"SUCCESS","msg":[]}},{"text":"%pyspark\n\ndic_capitais","user":"anonymous","dateUpdated":"2018-11-14T13:23:37+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542199991071_-1051149214","id":"20181114-125311_2066213176","dateCreated":"2018-11-14T12:53:11+0000","status":"FINISHED","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:1922","dateFinished":"2018-11-14T13:16:37+0000","dateStarted":"2018-11-14T13:16:29+0000","results":{"code":"SUCCESS","msg":[{"type":"TEXT","data":"{'Teresina': [], 'Aracaju': [], 'Macapá': [], 'Salvador': [], 'Belo Horizonte': [], 'Goiânia': [], 'Recife': [], 'Manaus': [], 'Florianópolis': [], 'Campo Grande': [], 'Belém': [], 'João Pessoa': [], 'Natal': [], 'Rio Branco': [], 'São Paulo': [], 'Porto Velho': [], 'Porto Alegre': [], 'Boa Vista': [], 'Brasília': [], 'Cuiabá': [], 'Curitiba': [], 'Maceió': [], 'Palmas': [], 'Fortaleza': [], 'Vitória': [], 'São Luís': [], 'Rio de Janeiro': []}\n"}]}},{"text":"%pyspark\n","user":"anonymous","dateUpdated":"2018-11-14T12:57:46+0000","config":{"colWidth":12,"fontSize":9,"enabled":true,"results":{},"editorSetting":{"language":"scala","editOnDblClick":false,"completionKey":"TAB","completionSupport":true},"editorMode":"ace/mode/scala"},"settings":{"params":{},"forms":{}},"apps":[],"jobName":"paragraph_1542200266072_-400737405","id":"20181114-125746_1279348295","dateCreated":"2018-11-14T12:57:46+0000","status":"READY","progressUpdateIntervalMs":500,"focus":true,"$$hashKey":"object:2138"}],"name":"crawler_br_code","id":"2DX3Y981W","noteParams":{},"noteForms":{},"angularObjects":{},"config":{"isZeppelinNotebookCronEnable":false,"looknfeel":"default","personalizedMode":"false"},"info":{}}