MÍDIA SOCIAL: Localização, Captura, Coleta de dados e preparação de dados

Tipo de documento:Monografia

Área de estudo:Tecnologia da informação

Documento 1

Banca examinadora: ______________________________________________________ Prof. titulação). Nome do Orientador 1) Orientador Universidade Federal de Alagoas ______________________________________________________ Prof. titulação). Nome do membro da banca/OrientadorOrientadade EstduçNG 2) (sigla da instituição) ______________________________________________________ Prof. É possível dizer que o processo de análise de mídia social envolve quatro etapas, sendo que a primeira etapa consiste em descobrir um determinado tópico, em segundo, coletar a informação necessária, em terceiro preparar o que requer a organização da informação e em quarto analisar os dados obtidos. Embora haja uma grande quantidade de literatura que descrevem os desafios e as dificuldades envolvidos, e métodos de análise desses dados, quase não existem pesquisas sobre as etapas que consistem em descobrir, coletar e preparar dados para a análise. Para descobrir maiores informações na tentativa de esclarecer estas etapas, foi realizado um estudo na literatura estendida e estruturada, através da qual foi identificado alguns desafios abordados com alguma das soluções propostas.

A pesquisa bibliográfica revelou que o volume de dados foi citado com maior frequência, dito como um desafio pelos autores. Por outro lado, outras categorias receberam atenção menor. To find out more information in an attempt to clarify these steps, a study was carried out in the extended and structured literature, through which some challenges were addressed with some of the proposed solutions. The literature search revealed that the volume of data was quoted more frequently, said as a challenge by the authors. On the other hand, other categories received less attention. Based on the results of the bibliographic research, the relevant challenges for the authors were described and some possible solutions were presented. Findings can be used to broaden analytics, providing benefits for researchers and practitioners who want to collect and analyze social media data.

Visão geral dos resultados 27 4. Identificando desafios e soluções 31 4. Entre as ciências sociais e computacionais 32 4. Desafio 32 4. Soluções 32 4. Desafio 38 4. Soluções 38 CAPÍTULO 5 40 5 CONSIDERAÇÕES FINAIS 40 REFERÊNCIAS 42 CAPÍTULO 1 1 INTRODUÇÃO A mídia social evoluiu na última década para se tornar um importante impulsionador para a aquisição e disseminação de informações em diferentes domínios, como negócios, conforme Recuero, Bastos e Zago (2015), entretenimento por Machado, Bona e Schlögl, (2018), ciência, por Zhang et al. gestão de crises, por Machado e Barichello (2015) e política, por Oliveira e Bermejo (2017). Uma razão para a popularidade das mídias sociais é a oportunidade de receber ou criar e compartilhar mensagens públicas a baixo custo e de forma onipresente. O enorme crescimento do uso de mídia social levou a uma crescente acumulação de dados, que foi denominado Big Data de Mídia Social.

Ele ganhou considerável atenção e, posteriormente, aceitação na pesquisa acadêmica, mas ainda faltam discussões abrangentes sobre análise de mídias sociais e sobre modelos e abordagens gerais. Filho (2012) apresentou um framework para organizar pesquisas em mídias sociais, e Tonelli e Wilner (2018) propuseram uma agenda de estrutura e pesquisa explicitamente limitada às mídias sociais organizacionais. Ambas as estruturas são voltadas para a classificação de áreas de pesquisa e, por extensão, questões de pesquisa, e não métodos para abordar essas questões. Há também pesquisas que discutem os desafios que os pesquisadores enfrentam quando empregam métodos específicos para analisar dados de mídia social, como análise de redes sociais (LIMA, 2016) ou mineração de opinião, conforme Oliveira e Bermejo (2017), e há revisões de literatura focadas em objetivos específicos, como a identificação de usuários que são influentes offline, conforme Tonelli e Wilner (2018) ou em tópicos específicos, como bots sociais (LIMA, 2016).

No entanto, a análise de mídia social consiste em várias etapas, das quais a análise de dados é apenas uma. Os pesquisadores dividiram o processo de análise em várias etapas. Os desafios específicos dos dados das redes sociais, no entanto, não foram abordados de forma abrangente na literatura da AMS. Para poder classificar esses desafios, foi utilizado a teoria da literatura de big data: volume, velocidade, variedade e veracidade. Análise de mídia social Desde o surgimento do uso de mídias sociais na última década, as pessoas vêm buscando obter informações da multidão como uma fonte adicional para a mídia tradicional. É usado o termo mídia social como referência à aplicativos baseados na internet que se baseiam nos fundamentos ideológicos e tecnológicos da Web 2.

Embora a perspectiva do sistema seja um aspecto importante, outro aspecto é a perspectiva dos usuários que criam o conteúdo. Pesquisas que adotam essa perspectiva exploram diferentes papéis na comunicação e os efeitos que um papel pode ter na comunicação e na difusão da informação (LIMA 2016). Influenciadores ou formadores de opinião, por exemplo, podem ser identificados através de uma análise de redes sociais e, ao examinar sua rede de seguidores, pode-se revelar o alcance de tal indivíduo (TONELLI e WILNER, 2018). Além disso, o comportamento dos papéis é examinado a fim de compreender as causas de um papel fundamental na rede e os efeitos que ela tem na rede geral (LIMA, 2016). Empresas como agências de mídia reconheceram a importância dos influenciadores e os utilizam, por exemplo, para colocação de produtos.

Os dados de mídia social no contexto da comunicação de crise também podem ser analisados ​​para obter informações adicionais, anteriormente desconhecidas, se os voluntários, por exemplo, tiram fotos ou vídeos e divulgam as informações na multidão. Dados de mídia social coletados também podem ser analisados ​​para detectar um local ou área específica onde a crise ocorre. Ao analisar os dados do GPS, se estiverem incluídos nos dados ou aplicando o método de Reconhecimento de Entidade Nomeada, a localização também pode ser derivada do texto (KLEIN, 2015). A propagação de uma doença pode ser monitorada através da mineração de tweets emocionais (FREIRE, 2015). Especialmente para Agências de Gerenciamento de Emergência, é importante entender o comportamento da comunicação e o status atual por meio das mídias sociais, para poder reagir com mais rapidez e eficiência.

Portanto, torna-se necessário identificar informações erradas, conforme Recuero, Bastos e Zargo (2015), bastam apenas rumores e notícias falsas para a credibilidade geral de um usuário se tornar negativo. Mecanismos são necessários para detectar essas categorias de conteúdo. Outro aspecto é o uso de spam em dados de mídia social, que não está relacionado ao tema e representa, por exemplo, propaganda. O spam aumenta a quantidade de dados e dificulta as análises. No geral, pode-se afirmar que a análise de mídia social é um processo altamente complexo, com diferentes aspectos em relação ao respectivo domínio de aplicação e ao uso de diferentes métodos. No entanto, o núcleo dessa etapa consiste em aplicar uma técnica-chave, como uma análise de sentimento ou uma análise de rede social, para entender os dados.

Na última etapa, os resultados devem ser resumidos e apresentados (SADALAGE e FOWLER, 2013). Lima (2016) também propõem um framework para análise de mídias sociais (AMS), que é o mais aceito em sistemas de informação, baseado nas citações do artigo na literatura de SI. Os autores descrevem o processo da AMS como consistindo em três etapas (veja a Fig. Figura 1: Estrutura de análise de mídia social Fonte: Lima (2016) Da figura acima, foi adicionado a fase de descoberta que vem antes da fase de rastreamento. Pode-se argumentar que os dados de mídia social compartilham muitas características de dados “grandes”, um termo que engloba dados obtidos de fontes muito diferentes e em disciplinas muito diferentes. As discussões sobre dados de mídia social são comumente encontradas em publicações sobre big data, conforme Sadalage e Fowler (2013), e os pesquisadores de mídia social frequentemente se referem à literatura de big data.

Isso tem sido chamado de “big data social” (KLEIN, 2015) ou “big data de mídia social” (SANTANCHÈ e CAVOTO, 2016). A noção de que o big data apresenta novos desafios é amplamente reconhecida em vários campos. Os principais fatores pelos quais esse novo fenômeno difere da análise tradicional podem ser resumidos da seguinte forma: Volume: o espaço de armazenamento necessário; Velocidade: velocidade de criação de dados juntamente com a vantagem obtida a partir da análise dos dados em tempo real; Variedade: o fato de que os dados assumem diferentes formas. No entanto, a falta de precisão, representatividade e contexto dos dados é afetada pela fonte de dados escolhida e pelo método de extração. Essas questões se enquadram na definição mais ampla de veracidade.

Em ciências sociais, a veracidade é o principal critério para a avaliação de big data (SADALAGE e FOWLER, 2013). As mídias sociais prometem um registro completo e em tempo real das atividades dos usuários “naturais”. Questões relativas à validade e representatividade têm sido frequentemente discutidas e exploradas (OLIVEIRA e BERMEJO, 2017). No contexto deste trabalho, os passos da AMS e os desafios do big data servem como esta estrutura conceitual a priori. Esta etapa dedutiva resultou em uma categorização grosseira dos artigos encontrados. Em uma segunda etapa, examinamos a literatura em mais detalhes para identificar semelhanças e diferenças entre os artigos individuais. Desse modo, determinamos como os desafios do big data se tornam aparentes nas etapas da AMS e quais soluções os pesquisadores propuseram.

Esta etapa serve para sintetizar indutivamente pesquisas anteriores e agrupar artigos relacionados em conceitos lógicos. Por fim, é claro que a maioria dos termos de pesquisa usados ​​foram criados recentemente. Pesquisas anteriores em questões semelhantes usaram outros termos relacionados, como Web 2. ou conteúdo gerado pelo usuário. Devido à escolha de termos de pesquisa, estas palavras não estão presentes, sendo o artigo mais antigo é de 1998. Não consideramos essa restrição problemática porque pretendemos retratar o estado da arte, não a história do campo. O Quadro 2 ilustra como foi realizado a categorização, fornecendo exemplos de sentenças dos artigos classificados que levaram à categorização correspondente. Quadro 2: Exemplos das Etapas de análises de Mídia Social - Categorização Etapa de análise de mídia social Descoberta “Um dos desafios é automaticamente separar os tópicos emergentes da discussão da constante conversa” (RECUERO, BASTOS E ZAGO, 2015).

Rastreamento “É um desafio coletar dados de mídia social relacionados às experiências dos alunos por causa da irregularidade e diversidade da linguagem usada. ” (LIMA, 2016). Preparação “Realizar uma análise longitudinal desses dados torna-se um problema de Big Data que não pode ser resolvido com ferramentas tradicionais, armazenamento ou infra-estrutura de processamento” (SADALAGE e FOWLER, 2013) Fonte: Elaborado pelo Autor (2019) Quadro 3: Exemplos dos Desafios em análises de Mídia Social – Visão Big Data Tipo de desafio Volume “O grande volume de dados produzidos nas redes sociais e funciona como um grande obstáculo para a inspeção manual” (RECUERO, BASTOS E ZAGO, 2015) Velocidade “Vislumbramos e desenvolvemos uma plataforma unificada de big data para análise de TV social, extraindo insights valiosos da resposta social da TV em tempo real.

A Tabela 3 mostra o número de resultados da pesquisa em cada banco de dados. Dos artigos retornados pela consulta de pesquisa, apenas cerca de um em cada cinco foram relevantes para a questão de pesquisa. A maioria dos artigos lidou com os desafios de métodos específicos, como extração de recursos em aprendizado de máquina ou domínios, por exemplo, resposta a desastres. Quadro 4: Número de resultados dos artigos relevantes por banco de dados. Base de dados Número de resultados Número de resultados relevantes (top 20) Scopus (Elsevier) 1. Machado e Barichello (2015), que desenvolveram um sistema de detecção de tendências para o Facebook, enfatizam a importância da natureza em tempo real, ou velocidade, das mídias sociais, e Tonelli e Wilner (2018) mencionam a natureza semi-estruturada dos dados, ou variedade, como um desafio.

Sadalage e Fowler (2013) usam uma abordagem projetada para lidar especificamente com dados ruidosos, ou seja, baixa veracidade. Nas etapas de coleta e preparação, o volume de dados também foi mencionado com frequência. Por exemplo, Filho (2012) mostrou como o data warehousing pode ser estendido para lidar com dados de mídia social. No entanto, a variedade foi outro desafio frequentemente mencionado, geralmente em relação ao processamento de dados estruturados, semiestruturados e não estruturados (SADALAGE e FOWLER, 2013). al. X X X X X Library & Information Science Collection (Zhang et al. X X X X Library & Information Science Collection (Zhao et al. X X X Fonte: Elaborado pelo Autor (2019) Em seguida, apresentamos os resultados da pesquisa inversa que têm como objetivo encontrar as publicações mais citadas considerados artigos que influenciaram muito o campo.

Por isso, examinamos as publicações mais frequentemente citadas mais de perto. Desafio Como a análise de mídia social é um campo interdisciplinar (Lima, 2016), os dados de mídia social estão sendo analisados ​​por pesquisadores com origens muito diferentes. Cada disciplina tem sua própria tradição e mérito, mas também seus próprios preconceitos. Em particular, Tinati et al. que consideram a análise de mídias sociais em uma estrutura mais ampla da Ciência da Web, apontam a lacuna entre ciências sociais e da computação e falam de um “abismo inútil”. Soluções Tinati et al. Embora esses algoritmos geralmente sejam adaptados às características específicas e aos desafios exclusivos dos dados de mídia social, eles geralmente podem ser usados ​​com dados de plataformas de mídia social muito diferentes.

Nesta linha de pesquisa, por exemplo, Machado, Bona e Schlögl (2018) afirmam que a descoberta de tópicos é uma tarefa desafiadora no volume de dados de mídias sociais. Machado e Barichello (2015), propõem uma solução para esse desafio que utiliza o aprendizado do dicionário e o avalia nos dados do Twitter e também avaliaram seu algoritmo para detectar eventos com precisão e em um curto período de tempo em um conjunto de dados do Twitter. A argumentação de Silva e Stabile (2016) é que se tornou “difícil encontrar e organizar exatamente os eventos interessantes a partir de dados maciços de mídia social”. Os autores vão além da detecção de tópicos e também consideram a evolução de tendências em seu trabalho de pesquisa, propondo uma estrutura de monitoramento e evolução de evento social modal, que é avaliada nos dados do Google Notícias.

Entre arquitetura de software e tecnologia de armazenamento apropriadas 4. Desafio O volume e a velocidade dos dados tornam necessária a escolha de arquiteturas de software apropriadas para o estágio de coleta de dados. Em configurações convencionais de “pequenos dados”, uma única máquina, ou um pequeno grupo, executa um sistema de gerenciamento de banco de dados relacional (DBMS) que implementa o padrão SQL (Structured Query Language), por exemplo, Microsoft SQL Server, PostgreSQL e MySQL. Na configuração de dados “grandes”, essas soluções geralmente não são mais consideradas suficientes (SANTANCHÈ e CAVOTO 2016). Soluções As soluções especificamente projetadas para lidar com dados “grandes” de mídia social conforme Kumar e Rishi (2015) concentram-se principalmente na tecnologia de armazenamento de dados e nos algoritmos usados ​​para processar os dados.

O paradigma de redução de mapa é especialmente proeminente entre as soluções propostas para tarefas computacionais, como as que surgem no pré-processamento. Eles geralmente usam o framework Apache Hadoop (ZHANG et al. Escrever um trabalho de redução de mapa para analisar dados pode ser significativamente mais difícil do que escrever uma consulta correspondente para um único nó, para o qual, às vezes, uma única instrução SQL é suficiente. Para descrever como implementar um algoritmo sequencial em redução de mapa, usando um exemplo de análise de mídia social, existem algumas tentativas de reduzir o trabalho, incluindo o Apache Pig (Recuero, Bastos e Zago, 2015). Os programas são escritos em um estilo processual convencional e depois convertidos em um trabalho de redução de mapa. Obtenção de dados de alta qualidade 4.

Desafio A veracidade dos dados leva a problemas na etapa de preparação de dados. Os dados de mídia social obtidos geralmente são incompletos ou barulhentos. Os dados existentes podem ser de baixa qualidade. Além do problema de dados ruidosos e não confiáveis, a informação pode estar faltando completamente porque o usuário não escolheu fornecê-la, ou porque o custo financeiro ou computacional é alto demais para coletá-la efetivamente (MACHADO e BARICHELLO, 2015). A solução alternativa para o problema de dados perdidos é inferir isso. Sadalage e Fowler usam descrições de usuários do Twitter para inferir perfis de consumidores, prevendo atributos como status parental a partir do conteúdo textual. Eles também usaram pistas textuais, mensagens marcadas geograficamente, configurações de fuso horário e menções de eventos regionais para inferir a localização do usuário com uma precisão de 94%.

Alguns meses de tweets foram suficientes para inferir esses dois atributos para mais usuários do que poderia ser deduzido da descrição do perfil. Visualizar dados de maneira significativa 4. Outras soluções abordam a visualização de informações geográficas (NETO et al. Neto et al. propõem uma estrutura computacional geral para lidar com dados de mídia social geoespacial para análise espaço-temporal escalável. Os autores propõem um modelo de cubo de dados para calcular a distribuição e dinâmica espaço-temporal e fazer uso do conceito de trajetórias espaço-temporais para visualizar as atividades dos usuários. Os autores descrevem sua implementação do framework usando o Twitter como a principal fonte de dados. propor um sistema de análise visual para analisar o comportamento público (mídia social).

Seu sistema é construído para o gerenciamento de desastres e planejamento de evacuação e suporta os tomadores de decisão para verificar e examinar certos aspectos das situações de crise, considerando dados espaciais e temporais. et al. também propõem em seu trabalho uma ferramenta de análise visual para detectar padrões no dia a dia das pessoas, ou seja, as geolocações, usando uma abordagem de visualização multi-filtro interativa. Devido ao tipo de dispersão e irregularidade dos dados, os autores propõem um sistema de autodesenvolvimento, rastreiam os movimentos dos usuários e os analisam em seus sistemas. Algoritmos avançados de detecção de tópicos prometem resolver este problema. Nos estágios posteriores, a variedade de dados se torna outro grande desafio.

A natureza dinâmica dos dados de mídia social torna sua coleta e preparação para análise especialmente complicada. Através de pesquisa bibliográfica, identificamos soluções de arquiteturas de software sofisticadas para análise visual. A descoberta de tópicos e a detecção de eventos já são campos de pesquisa bem estabelecidos. Using geovisual reasoning to improve home location inference from cyclists’ GPS traces: towards understanding the demographic representativeness of mobile sports tracking application data. IEEE Transactions on Visualization and Computer Graphics, 22 (1), 169 – 188. agile-online. org/images/conference_2017/Proceedings2017/shortpapers/99_ShortPaper_in_PDF. pdf. Programa de Pós-Graduação em Informática da Universidade Federal do Espírito Santo. KEPNER, J. GADEPALLY, V. MICHALEAS, P. SCHEAR, N. f. Dissertação de Mestrado, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento da Universidade Federal de Santa Catarina.

Acesso em 15 abr. KUMAR, S. RISHI, R. Disponível em: http://tede. mackenzie. br/jspui/bitstream/tede/3363/5/ANA%20CAROLINA%20ESPIRITO%20SANTO%20LIMA. pdf. Acesso em: 25 abr. Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação 41º Congresso Brasileiro de Ciências da Comunicação – Joinville - SC – 2 a 8/09/2018 NETO, Eduardo R. D. MENDONÇA, André L. C. BRITO, Felipe T. n. p. Sept. Available from <http://www. scielo. j. matpr. RECUERO, Raquel; BASTOS, Marco; ZAGO Gabriela. Análise de Redes para Mídia Social. Centro de Computação Eletrônica da USP. PMCID: PMC5517059 SADALAGE, P. J. FOWLER, M. NoSQL Essencial. ed. unicamp. br/~santanch/teaching/db/2016-2/slides/bd08-armazenamento-indexacao-v06. pdf. Acesso em 15 abr. SILVA, Tarcízio; STABILE, Max. SOUSA, Gonçalo da Cruz P. PEREIRA, José L. M. Document-based databases: estudo comparativo no âmbito das bases de dados NoSQL.

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação. In Proceedings of the 2014 ACM Conference on Web Science (pp. New York, NY, USA: ACM. org/10. TONELLI, Maria José; WILNER, Adriana. Conhecimento e Impacto em Gestão.

2367 R$ para obter acesso e baixar trabalho pronto

Apenas no StudyBank

Modelo original

Para download