Usuário:Albmont/Estimativa do número de artigos sem fontes
Esta pesquisa tem por finalidade avaliar o tamanho do estrago, ou seja, no contexto da Wikipédia:Central de pesquisas, visa medir um ponto específico: qual é a porcentagem de artigos que não tem fontes? Uma estimativa antiga (2009) era que este número era de 90%, porém estimativas mais recentes indicam algo como 50%. Para que o teste possa ser repetido (o que não seria possível usando-se o Especial:Aleatória, foram utilizadas as páginas listadas em Especial:Todas as páginas, e escolhidas todas as páginas, exceto a primeira e a última. Este teste tem alguma repetibilidade, porém é óbvio que as páginas mudarão conforme novas páginas forem criadas. No momento, as páginas são as listadas abaixo, seguido da avaliação (0 = nenhuma fonte, 1 = porcamente referenciado, 2 = parcialmente referenciado, 3 = bem referenciado, 4 = perfeitamente referenciado):
- 16 Virginis - 1
- 16 Válvulas - 2
- 25021 Nischaykumar - 0
- 25022 Hemalibatra - 0
- 3617 Eicher - 0
* 3617 eicher redirect
- 804 a.C. - 0 (redirect)
* 804 a.c. redirect
* Abrus precatorius, Leguminosae redirect
- Aeroporto Internacional José María Córdova - 1
- Aeroporto Internacional Juan Manuel Gálvez - 0
- Alchemilla vulgaris f. semiglabra - 3
- Alchemilla vulgaris f. vegeta - 3
- Amazona ventralis - 0
- Amazona versicolor - 0
- Antiga Fábrica da Baleia do Porto Pim - 1
- Antiga Grécia - 3
- Arjonilla - 0
- Arjun - 0
* Atletismo nos Jogos Olímpicos de Verão da Juventude de 2010 - Rev...
* Atletismo nos Jogos Olímpicos de Verão da Juventude de 2010 - Rev...
- Balaka (distrito) - 0
- Balakan - 0
- Bayamón - 0
- Bayan-Ölgiy - 2
- Birendra bir bikram shah dev - 0
* Birendra do Nepal redirect
- Brasão de Garibaldi - 0
- Brasão de Gavião Peixoto - 0
- Cabassous - 2
- Cabassous unicinctus - 0
- Campeonato finlandês de futebol de 1928 - 0
- Campeonato finlandês de futebol de 1929 - 0
- Carminha Frufru - 0
- Carminha Jerominho - 4
- Cemitério da iv parada - 0
- Cemitério da ordem terceira do carmo - 0
- Chito-ryu - 4
- Chitonanthera - 0
- Club de Futbol Monterrey - 1
- Club de Futbol Obispado - 0
* Comuna de Skar?ysko Ko?cielne
- Comuna de Skawina - 1
- Confea - conselho federal de engenharia, arquitetura e agronomia - 1
- Confederación Española de Derechas Autônomas - 3
- Corticeira amorim - 0
- Corticeiro de Cima - 1
- Câmara dos Deputados do Chile - 0
- Câmara dos Deputados do Paraguai - 0
- Deep freeze - 0
- Deep fritz - 0
- Diocese de angra - 3
* Diocese de angra do heroísmo redirect
* Dre desambiguação
- DreaMule - 0
- Efeitos do furacão Dean nas Pequenas Antilhas - 3
- Efeitos do furacão Dennis na Flórida - 3
- Enten - Eller - 0
* Entente desambiguação
* Explorer i redirect
- Fernando bonassi - 0
- Fernando botero - 0
- Forte da Rua Longa (Biscoitos) - 3
- Forte da Salga - 3
- Fundação nacional do índio - 1
- Fundação nacional para o livro infantil e juvenil - 0
- Geografia do Cazaquistão - 0 (será que usaram como fonte o filme do Borat?)
- Geografia do Ceará - 3
- Goofy - 0
- Goofy Gophers - 0
- Grézieu-la-Varenne - 0
* Grézieu-la-varenne redirect
- Harsh EBM - 0
- His Majesty's Dragon - 0
- His Musical Career - 0
- IPad Retina - 4
- IPad mini - 3
- Independência do panamá - 1
- Independência dos EUA - 0
- J-League 2011 - 0
- J-League 2012 - 1
- Jigoku shoujo - 0
- Jigokudani - 0
- José Maria de Almada Castro e Noronha da Silveira Lobo - 1
- José Maria de Almada Cirne Peixoto - 4
- Kajuru na Área - 0
* Kajuru na área redirect
- Kunth - 1
- Kuntheria - 0
- Lashawn daniels - 0
- Lashinda Demus - 4
- Lienardia rubida - 0
- Lienardia rugosa - 0
- Ljusnan - 0
- Ljusnarsberg (comuna) - 0
- Lygia Pape - 1
- Lygia Terra - 0
- Manifesto de Oberhausen - 0
- Manifesto de Ostende - 0
* Marrero desambiguação
- Marrero (Luisiana) - 2
- Mendonciaceae - 0
- Mendonça - 3
- Milwaukee brewers - 0
- Milwaukee bucks - 0
- Moonlighting - 0
- Moonmadness - 0
- Mármores de elgin - 0
* Mármores do Partenon redirect
- Natalia Cruze - 1
- Natalia Esperón - 1
- Nick Jago - 0
- Nick Jameson - 0
- O Aniversário de Nossa Estrela - 1
* O Aniversário de nossa Estrela redirect
- Only One Flo (Part 1) - 3
- Only One Rida (Part 2) - 3
- PRE - 0
- PRE-8 - 1
- Partida Diamante Brasileiro - 0
- Partida Garry Kasparov vs X3D Fritz - 0
- People Get Ready - 0
- People I Know - 0
- Piz Tschierva - 0
- Piz Varuna - 0
- Postos ale - 2
- Postos de combustíveis - 1
- Província de Nemuro - 0
- Província de Neuquén - 0
- R.lesson - 0
- R.m. hamm benfica - 0
- Região Metropolitana de Minneapolis-Saint Paul - 0
- Região Metropolitana de Montreal - 0
- Richie Rich (rapper) - 0
- Richie Rich (revista em quadrinhos) - 0
- Rochelle Aytes - 0
- Rochelle Hudson - 0
- S.C.M Aljustrelense - 0
- S.C.U.M. Manifesto - 0
* Saltos ornamentais no Campeonato Mundial de Esportes Aquáticos de ...
* Saltos ornamentais no Campeonato Mundial de Esportes Aquáticos de ...
- Scaptia beyonceae - 4
- Scaptochirus - 0
- Sevilla fc - 1
* Sevilla fútbol club redirect
- Soca - 0
- Socabaya (distrito) - 0
- Steve Roland Prefontaine - 1
- Steve Rothery - 4
- São martinho da cortiça - 0
- São martinho da gândara - 0
- Teatro sá da bandeira - 0
- Teatro são joão (sobral) - 0
- The Glimmer Twins - 0
- The Globe - 0
- Titeuf - 0
* Tite?ti
* Westside desambiguação
Conclusões:
- Há 65% de artigos sem fontes (estatisticamente, pode-se dizer que 2/3 dos artigos são sem fontes)
- O desastre é maior do que minha estimativa empírica (50%) mas bem menor que a estimativa comum (90%)
- Boa parte da desgraça é devida a dois tipos de lixo robótico: artigos de geografia, e artigos de espécies. No segundo caso, não imagino como se possa resolver além de ir, um a um, referenciando (quando possível) ou eliminando (quando não for possível). No primeiro caso, imagino que a solução seja um pouco mais simples: se o robô fez a, na metáfora do José Luiz, a cagada, então talvez seja possível que robôs consertem a cagada, ou seja, que sejam escritos robôs para passar o Rolo Compressor de Jimbo em cima destes lixões de geografia, mas agora inserindo fontes
Finalmente, para deleite de quem gosta de gráficos, segue um histograma que resume os dados acima. Albmont (discussão) 17h14min de 9 de abril de 2013 (UTC)
Comentários são bem vindos. Trollagens não
[editar | editar código-fonte]- Amostra pequena. Para ganhar robustez em nível de significância estatística tem que aumentar. Vou pesquisar as técnicas de amostragem parar determinar a quantidade de maçãs podres num lote de 750 mil maçãs. Abs,OTAVIO1981 (discussão) 18h45min de 9 de abril de 2013 (UTC)
- Seja p a variável aleatória proporção de artigos sem fontes em uma população N. Então a quantidade de artigos sem fontes em uma amostra de tamanho n (n << N) segue uma distribuição binomial (droga! artigo sem fontes!) de média n p, e como n p > 5 e n (1 - p) > 5 pode-se aproximar a proporção de artigos sem fontes na amostra por uma normal de média p e desvio padrão , assim, o intervalo de segurança a 95% para a estimativa do número de artigos que não tem fontes é:
- ou seja, colocando números:
- 58% < p < 74%
- A amostra foi significativa para rejeitar tanto a hipótese de que p = 90% quanto a hipótese de que p = 50%. Albmont (discussão) 19h11min de 9 de abril de 2013 (UTC)
- Seja p a variável aleatória proporção de artigos sem fontes em uma população N. Então a quantidade de artigos sem fontes em uma amostra de tamanho n (n << N) segue uma distribuição binomial (droga! artigo sem fontes!) de média n p, e como n p > 5 e n (1 - p) > 5 pode-se aproximar a proporção de artigos sem fontes na amostra por uma normal de média p e desvio padrão , assim, o intervalo de segurança a 95% para a estimativa do número de artigos que não tem fontes é:
Revisão
[editar | editar código-fonte]Qualquer dia vou revisar esta pesquisa. Empiricamente, pelo uso diário de "página aleatória", notei uma redução substancial do número de textos sem fontes, quase todos são mínimos sobre espécies criados em massa e abandonados pelo NH ou mínimos sobre geografia. Empiricamente, de novo, talvez só haja 1/3 de textos sem fontes, a maioria (talvez 2/3 deste grupo, ou cerca de 20% do total de "artigos" da wiki.pt) sendo estes que eu acabei de citar, criado em massa e abandonados. Albmont (discussão) 12h37min de 12 de abril de 2014 (UTC)