Medindo influência, alcance, sociabilidade e ruído no Twitter (II)

No primeiro artigo apresentei os quatro índices que apliquei, para já, nas páginas estatísticas individuais dos tuíteres portugueses e twiteros espanhóis, respectivamente em TwitterPortugal e TwitterEspana.
São eles: Evan Prodromou’s Twitter scale, mvalente’s influence scale, Range potencial (or Dave Winner’s Spewage) e Noise ratio (Louis Gray approach).
Ora, e o que querem medir estes índices?
O que representam os seus resultados?
Quais as fórmulas para os alcançar?
Vou tentar responder.
Ajustamento social, ou sociabilidade, é o que podemos ver no primeiro índice. Evan chegou ao seguinte enunciado da escala:

new scale: 1:5 = twittercaster, 1:2 = notable, 1:1 socially healthy, 2:1 newbie or social climber, 5:1 twitter spammer

Assim um indivíduo que tenha uma relação de um following por cada cinco followers — isto é, que tenha cinco vezes (ou mais) mais pessoas a segui-lo do que ele segue — é um twittercaster, um emissor, alguém com prestígio. O notable vem a seguir na escala e tem duas vezes mais followers do que following. Socialmente equilibrado é o tuíter (vi o termo neste excelente artigo do Edney sobre Twitter e ficou-me) que tem tantos seguidores como pessoas que segue. Virando a escala, os recém-chegados e os trepadores sociais distinguem-se por seguirem mais gente do que a gente os segue a eles, o que é natural e temporário no primeiro caso, e artificial e perene no segundo. O spammer é aquele que adiciona gente, adiciona gente, adiciona gente, tentanto “tocar” o maior número possível de pessoas na expectativa da retribuição de alguns incautos (dá para perceber de onde vem o nome).
As contas são simples: divide-se o número de following por followers.

Os tuíters não são todos iguais e uns influenciam mais que outros. Não nada fácil descobrir os influenciadores — quem souber ganha um prémio chorudo da indústria do SMM.
A fórmula do Mário Valente é mais complexa:
$mvrank = followers / following+1 / log(twitts)
Ou seja, dividimos o número de seguidores pelo número de seguidos mais um e voltamos a dividir o resultado pelo logaritmo natural do total de twitts (twits são as mensagens que emitimos pelo Twitter).
Esta fórmula distingue os utilizadores que publicam muito e têm mais seguidores do que seguem. Resulta relativamente bem para humanos, mas ainda pensamos numa ponderação para o caso dos não-humanos (como os jornais, publicações e serviços que usam o Twitter como canal), que surgem com uma influência desproporcionada.

O range potencial é o número limite teórico de contactos, ou visualizações, e corresponde muito grosseiramente aquilo a que os jornais chamam audiência. O número de twits multiplicado pelo número de “leitores” fornece a quantidade de contactos.
É um limite teórico, repito, ou talvez devesse escrever virtual, pois que na prática não existe: o número de followers não é constante, pelo que cada um dos twits chegou a um potencial de leitores diferente.
Por outro lado — e aqui vem a parecença com as medições que conhecemos nos mainstream media, bem como a sua exportação para o online no modelo das visualizações — o facto de dispormos de um potencial de xis leitores não significa que a mensagem tenha sido aberta por todos eles.
Apesar das suas fragilidades evidentes o alvo potencial, tal como sublinhou Dave Winner ao introduzi-lo, faz-nos olhar para o Twitter com mais respeito. Um puf! entre 3 servidores e os artigos no Certamente! multiplicaram-se numa rede com um limite de, deixa ver, 168.300 pares de olhos. Não há melhor relação custo/benefício no mundo da edição!
Duvido que lá dentro alguém saiba isto, mas o Público tem um potencial de 13.027.768 contactosnot bad para duas dúzias de electrões endiabrados ;)

O alcance, como tudo no Twitter, é espantoso. Um pouco menos, apesar de tudo, é o ruído. Mesmo as actuais queixas de spam são um pouco disparatadas: individualmente, o spam representa uma ameça muito inferior, quase nula. a bem dizer, nem nos chega a mensagem propriamente dita, mas apenas uma manifestação da intenção do spammer.
A escala de Louis Gray não tem nada a ver com o fenómeno do spam, o que ele quis foi ver se ele próprio “twitava” muito ou pouco.
É muito simples: dividimos o número de twits, ou mensagens, pelo número de followers, e obtemos um resultado que indicia o nível de ruído que geramos.
Indivíduos com menos mensagens enviadas do que leitores são Listeners — estão no Twitter sobretudo para ouvir os outros. Entre a paridade mensagens-destinatários e duas mensagens por destinatário, considera-se um Middle ground. Os Conversationalists são os que emitem entre 2 e 5 mensages por cada follower que têm, acima disso são considerados Megaphones.

—-
Finalizo indicando outro método que me parece promissor, mas que ainda não sei se aplicarei nas minhas experiências pois foge um pouco ao meu âmbito, que é mais universal e menos centrado no utilizador. Passa por valorizar a acção do tuíter calculando as quantidades de links que usa, a que se dirige, que se dirige a ele, e quantas mensagens não têm destinatário declarado (a maioria). A base de dados do Tweeterboard parece ainda não ter recuperado, infelizmente.
Uma nota mais: monitorar o Twitter é um triplo desafio.
Por um lado, as limitações físicas no acesso à API: 70 pedidos por hora obrigam a muita ginástica, alguma dela inteligente, como fazer um serviço que possa “pedir emprestado” o login ao cliente para realizar as operações.
Por outro, as pannes da API: volta e meia bloqueia, durante uma hora deixa passar todas as mensagens (acontece mais de madrugada), ou então tem um comportamento errático, perdendo uma mensagem aqui, outra ali.
E por último as crises do próprio serviço, que não são poucas. Bem precisam de mais 15 ou 20 milhões de dólares… (o que eu faria com 1% disso…)

(Link do primeiro artigo dos dois sobre este assunto)

Tweets

Debate

13 opiniões no artigo “Medindo influência, alcance, sociabilidade e ruído no Twitter (II)”

    1 Certamente! media: Medindo influência, alcance, sociabilidade e ruído no Twitter em 13 Mai 08 15:03

    [...] o que significam estes números? Fica para o segundo artigo. Data: 13 Mai 08 15:00 Editor: Paulo Querido   Arquivo: media  Tags: data mining, [...]

    2 Certamente! economia: Medindo influência, alcance, sociabilidade e ruído no Twitter em 13 Mai 08 15:04

    [...] o que significam estes números? Fica para o segundo artigo. Data: 13 Mai 08 15:00 Editor: Paulo Querido   Arquivo: economia, media  Tags: data [...]

    3 MJ Valente em 13 Mai 08 16:07

    Muito interessante, Paulo. Ainda não tinha encontrado estas fórmulas… Contudo, tenho dúvidas em algumas das classificações.

    Por exemplo: o Público tem muitíssimo mais seguidores que qualquer “tuíter” em Portugal, mas não é um “tuíter” convencional. Ou seja, não segue ninguém e não responde a ninguém.

    Ou façamos a comparação entre a presença do Obama e da Hillary no Twitter. Um segue, outro não.

    Será que a classificação (divisão, enfim, das classes de “tuíteres”) não deveria começar por aí? Antes de contar os seguidores e os seguidos e as actualizações.

    PS. Ainda me estou a habituar ao “tuíter” (v. portuguesa aqui proposta) — não sei se acho piada ou não gosto de todo.

    4 MJ Valente em 13 Mai 08 16:08

    Actualização: acho piada.

    5 Paulo Querido em 13 Mai 08 16:17

    Cara Maria João, eu também tenho dúvidas. Isto são experimentações em cima da coisa. Fazem-se muitas pela net fora e na medida do possível vou estando em cima (nada fácil, muito me escapa).
    Agora, o que é um tuíter convencional? Eu o que vejo ali é uma plataforma que tem muitos tipos de utilidades. Posso preferir os interactivos… Mas há twitters que sigo e são como o Público, meros (?) canais complementares de distribuição de conteúdos que estão noutro sítio. Aliás, são os que mais sigo.

    Mas realmente este tipo de uso não pode ser medido pela mesma bitola do uso interactivo. Esse foi, aliás, o principal ponto de trabalho do algoritmo do Mário Valente — que na minha opinião destaca excessivamente tuíteres como o Público e não só, mesmo alguns que são interactivos mas têm “audiências” limitadas; no entanto, como seguem ainda menos gente do que a gente que os segue, e “piam” bastante, disparam no mv index.

    Eu declaro desde já que não gosto de tuíter. Mas pardal ainda é pior. E mais vale “tuitada” ou “twitada” do que “pio”. No entanto, também aqui vou saboreando os sons, à procura. E provocando o debate junto dos meus leitores.

    Nunca gostei de “blogue” e ainda não gosto mas uso. Nunca gostei de “blogueiro” e raramente uso, prefiro “blogger” e quando posso meto “autor”.

    6 Paulo Querido em 13 Mai 08 16:24

    A propósito de Obama e Clinton no T., publiquei isto no Expresso já há umas semanas.

    7 MJ Valente em 13 Mai 08 16:32

    (De volta aos vocábulos originais…) Eu diria que um twitter convencional é como um blogger convencional: os jornais (as notícias dos jornais) não o são, p.ex. São uma outra espécie de twitters, seja ela qual for. É claro que a definição não pode ficar por aqui, mas ainda não tenho ideias definidas sobre o tema.

    Twitada e pio são terríveis! Mas gosto de blogue. Odeio blogueiro. Ou blogista. Antes bloguer! :)

    Paulo — porque não fazer um pequeno glossário com termos possíveis? (A multiplicidade deles.) Seria interessante para uma futura discussão.

    8 MJ Valente em 13 Mai 08 16:35

    Acho que já tinha lido isso (Obama v. Hillary). Só está no Expresso? (Acho q li aqui no blogue.)

    Nota: esta questão O v. H lembra-me a equação Hillary = PC / Obama = Mac.

    9 MV em 13 Mai 08 17:45

    Algumas notas sobre a formula “cozinhada”:

    - acho q é obvio que a influencia de um blogger/twitter é tanto maior qto o numero de leitores/followers

    - por outro lado acho q tb é obvio q um blogger/twitter é mais influente/authoritative qto mais independente é, qto menos fontes o influenciam

    - logo, parece ser obvio q o racio followers/following é uma boa medida de influencia: alguem que faz follow a mta gente mas com poucos followers tem um valor baixo (inferior a 1 se o numero de followers for menor do que os q faz follow); alguem q tem mtos followers e faz following a poucos terá um valor mais alto (superior a 1 no caso de ter mais em followers do que em following)

    - o problema é como fazer entrar o numero de twits/interaccoes e, em particular, de forma q traga o racio anterior para uma escala razoavel (0..1, 1..10 ou 1..100)

    - pura e simplesmente multiplicar pelo numero de tweets n serve; favorece os spammers e ainda aumenta mais a escala

    - a solucao foi reduzir a escala do numero de tweets aplicando o log() e multiplicando o racio pelo inverso

    - nao é impossivel resolver o problema da exagerada influencia do numero de tweets (caso Publico), mas tb nao é simples: seria necessario analisar recursivamente a rede social de cada emissor (grosso modo a influencia do Publico seria uma medida da influencia dos seus followers), até um determinado grau de vizinhança; o q se afigura trabalho computacional pesado já para nao falar de ser mais do que o exigivel numa madrugada qq :-)

    – MV

    10 Paulo Querido em 13 Mai 08 18:02

    Mário, obrigado pelos teus esclarecimentos ;)

    Não foi fácil para mim seguir o teu raciocínio em termos matemáticos, mas lá fui adaptando o código… O problema do peso dos verborreicos, o Público e os outros meios que distribuem os seus feeds também no T. graças ao twitterburner, não se resolve com uma fórmula apenas, por mais complexa que ela possa ser. Só, como dizes, analisando recursivamente a respectiva rede. Tenho seguido alguns exercícios que já fazem o recursivo, mas não procuram um índice (talvez pudéssemos trabalhar com eles). E gastam muita máquina e criam problemas de arquitectura, como se pode ver pelos downtimes frequentes.

    Devo dizer uma coisa sobre esta busca de padrões de medida, em especial o da influência: foi (é) uma busca pioneira mesmo à escala global, tendo surgido modelos mais complexos depois de nós.

    Espero que algum desses serviços com recursos e objectivos bem mais vastos nos dê melhores pistas pois que, como o Mário frisou, a complexidade da tarefa demanda bastante mais do que uma madrugada (e ainda 2 tardes, no meu caso).

    11 Web - Medindo influência, alcance, sociabilidade e ruído no Twitter (II) - RetortaBlog em 14 Mai 08 12:31

    [...] Web - Medindo influência, alcance, sociabilidade e ruído no Twitter (II) [...]

    12 Mariana em 6 Out 08 23:02

    por favor gostaria di fazer uma pergunta se puder mi responder ainda hj?…. as formas como a economia influencia nas classificações determinadas nos jogos olimpicos?

    13 Paulo Querido em 6 Out 08 23:47

    Cara Mariana, as economias mais pujantes em geral fornecem melhores resultados olímpicos.

    Mas isto é uma generalidade. Pode acontecer — e há exemplos crónicos, até - que economias débeis apostem muito nas suas representações olímpicas, conscientes do respectivo retorno, seja em charme, seja mesmo em projecção dos seus produtos (o turismo à cabeça).

    Tb acontece algumas economias saudáveis passarem ao lado dos Jogos, por razões sociológicas, por exemplo. Por desinteresse.

Deixe a sua opinião




Textos mais recentes

ACERCA
mini fotografia paulo querido Olá, o meu nome é Paulo Querido e Certamente! é o meu webzine pessoal. Sou jornalista free lance, escrevo livros e artigos (e também algum código) sobre a net e na net desde 1989. (Mais)

Como ler

Certamente! é distribuído em vários canais.
newsletter à sexta-feira com o melhor da semana
edição diária por e-mail
Pelo Twitter
Por RSS
Google
Bloglines
no Yahoo!
no seu leitor


http://www.wikio.fr