Excel otomatik düzeltme hataları hala genetik araştırmaları rahatsız ediyor ve bilimsel titizlik konusunda endişeleri artırıyor

Kredi bilgileri: Shutterstock

Otomatik düzeltme veya metin tahmini, internet aramalarından mesajlaşma uygulamalarına ve kelime işlemcilere kadar birçok modern teknoloji aracının ortak bir özelliğidir. Otomatik düzeltme bir nimet olabilir, ancak algoritma hata yaptığında mesajı dramatik ve bazen komik şekillerde değiştirebilir.

Araştırmamız, özellikle Excel elektronik tablolarındaki otomatik düzeltme hatalarının, genetik araştırmalarda da gen adlarını karıştırdığını gösteriyor. 2014 ve 2020 yılları arasında yayınlanan Excel gen listeleriyle 10.000’den fazla makaleyi inceledik ve %30’dan fazlasının otomatik düzeltme tarafından karıştırılan en az bir gen adı içerdiğini tespit ettik.

Bu araştırma, makalelerin yaklaşık %20’sinin bu hataları içerdiğini tespit eden 2016 araştırmamızı takip ediyor, bu nedenle sorun daha da kötüye gidiyor olabilir. Araştırmacılar için dersin açık olduğuna inanıyoruz: Excel’i kullanmayı bırakmanın ve daha güçlü yazılımları kullanmayı öğrenmenin zamanı geldi.

Excel yanlış varsayımlarda bulunuyor

E-tablolar, kullanıcının ne tür veriler istediğini tahmin etmek için tahmini metin uygular. Sıfırla başlayan bir telefon numarası yazarsanız, onu sayısal bir değer olarak tanır ve baştaki sıfırı kaldırır. “=8/2” yazarsanız sonuç “4” olarak görünür, ancak “8/2” yazarsanız tarih olarak tanınır.

Bilimsel verilerle, Excel’de bir dosyayı varsayılan ayarlarla açmak gibi basit bir işlem, otomatik düzeltme nedeniyle verileri bozabilir. Hücreler, verileri yapıştırmadan veya içe aktarmadan önce önceden biçimlendirilirse, istenmeyen otomatik düzeltmelerden kaçınmak mümkündür, ancak bu ve diğer veri hijyeni ipuçları yaygın olarak uygulanmamaktadır.

Genetikte, Excel’in yaklaşık 30 insan geni ve protein adını tarihlere çevirebileceği 2004 yılında fark edildi. Bu isimler şöyle şeylerdi 1 MART, EYLÜL, 4 Ekim, haziran, ve bunun gibi.

Birkaç yıl önce, etkisi yüksek bir dergi makalesine eklenmiş ek veri dosyalarında bu hatayı tespit ettik ve bu hataların ne kadar yaygın olduğuyla ilgilenmeye başladık. 2016 makalemiz, sorunun orta ve yüksek dereceli dergileri aşağı yukarı eşit oranlarda etkilediğini belirtti. Bu bize araştırmacıların ve dergilerin otomatik düzeltme probleminden ve bundan nasıl kaçınılacağından büyük ölçüde habersiz olduklarını gösterdi.

İnsan genlerinin isimlendirilmesinden sorumlu resmi kurum olan İnsan Gen Adı Konsorsiyumu, 2016 raporumuz sonucunda en sorunlu genleri yeniden adlandırdı. 1 MART ve EYLÜL olarak değiştirildi MARTF1 ve EYLÜL1 sırasıyla ve diğerleri benzer değişikliklere sahipti.

Excel otomatik düzeltme hataları hala genetik araştırmaları rahatsız ediyor ve bilimsel titizlik konusunda endişeleri artırıyor

Excel’deki gen adlarının örnek bir listesi.

Devam eden bir sorun

Bu yılın başlarında analizimizi tekrarladık. Bu sefer, daha geniş bir açık erişim dergi seçkisini kapsayacak şekilde genişlettik, araştırmacıların ve dergilerin bu tür hataların ek veri dosyalarında görünmesini önlemek için adımlar atacağını tahmin ettik.

2014-2020 döneminde, örneğimizin yaklaşık %31’ini oluşturan 3.436 makalenin gen adı hataları içerdiğini öğrenince şok olduk. Görünüşe göre sorun ortadan kalkmadı ve aslında daha da kötüye gidiyor.

Küçük hatalar önemlidir

Bazıları bu hataların gerçekten önemli olmadığını iddia ediyor, çünkü 30 kadar gen, tüm insan genomundaki kabaca 44.000’in yalnızca küçük bir kısmıdır ve hataların herhangi bir belirli genomik çalışmanın sonuçlarına dönüşmesi olası değildir.

Bu ek veri dosyalarını yeniden kullanan herkes, bu küçük gen setinin eksik veya bozuk olduğunu görecektir. Araştırma projeniz aşağıdakileri inceliyorsa, bu rahatsız edici olabilir. EYLÜL gen ailesi, ancak var olan birçok gen ailesinden sadece biri.

Hataların önemli olduğuna inanıyoruz çünkü bu hataların bilimsel yayınlara nasıl sızabileceği hakkında sorular ortaya koyuyorlar. Gen adı otomatik düzeltme hataları, yayınlanan veri dosyalarında tespit edilmeden meslektaş incelemesini geçebilirse, binlerce veri noktası arasında başka hangi hatalar gizleniyor olabilir?

Hesap tablosu felaketleri

İşletme ve finansta, elektronik tablo hatalarının maliyetli ve utanç verici kayıplara yol açtığı birçok örnek vardır.

2012’de JP Morgan, modelleme elektronik tablolarındaki formül hatalarının mümkün kıldığı bir dizi ticari gaf sayesinde 6 milyar ABD Dolarından fazla zarar açıkladı. Enron Corporation’daki 2001’deki muhteşem düşüşünden önceki binlerce elektronik tablonun analizi, neredeyse dörtte birinin hata içerdiğini gösteriyor.

Harvard ekonomistleri Carmen Reinhart ve Kenneth Rogoff’un şu anda kötü şöhretli bir makalesi, küresel mali krizin ardından kemer sıkma indirimlerini haklı çıkarmak için kullanıldı, ancak analiz, modellemelerinde 20 ülkeden beşinin çıkarılmasına yol açan kritik bir Excel hatası içeriyordu.

Excel otomatik düzeltme hataları hala genetik araştırmaları rahatsız ediyor ve bilimsel titizlik konusunda endişeleri artırıyor

Kredi: Grafik: Mark Ziemann / The Conversation

Daha geçen yıl, Public Health England’daki bir elektronik tablo hatası, yaklaşık 15.000 pozitif COVID-19 vakasına karşılık gelen veri kaybına yol açtı. Bu, vaka sayıları hızla artarken sekiz gün boyunca temaslı izleme çabalarını tehlikeye attı. Sağlık hizmeti ortamında, elektronik tablolara klinik veri giriş hataları %5 kadar yüksek olabilirken, hastane yönetimi elektronik tablolarıyla ilgili ayrı bir çalışma, 12’den 11’inin kritik kusurlar içerdiğini gösterdi.

Biyomedikal araştırmalarda, bir numune sayfası hazırlamadaki bir hata, bir dizi numune etiketinin bir konum kaydırılmasına ve genomik analiz sonuçlarının tamamen değişmesine neden oldu. Bu sonuçlar önemliydi çünkü hastaların sonraki bir klinik deneyde alacakları ilaçları haklı çıkarmak için kullanılıyorlardı. Bu izole bir durum olabilir, ancak sistematik hata bulma çalışmalarının eksikliği nedeniyle bu tür hataların araştırmalarda ne kadar yaygın olduğunu gerçekten bilmiyoruz.

Daha iyi araçlar mevcuttur

Elektronik tablolar çok yönlü ve kullanışlıdır, ancak sınırlamaları vardır. İşletmeler elektronik tablolardan özel muhasebe yazılımlarına geçti ve SQL gibi veritabanı sistemleri çok daha sağlam ve yetenekli olduğunda BT’deki hiç kimse verileri işlemek için bir elektronik tablo kullanmaz.

Bununla birlikte, bilim insanlarının ek verilerini çevrimiçi olarak paylaşmak için Excel dosyalarını kullanmaları hala yaygındır. Ancak bilim daha fazla veri yoğun hale geldikçe ve Excel’in sınırlamaları daha belirgin hale geldikçe, araştırmacıların elektronik tablolara önyükleme yapma zamanı gelebilir.

Genomik ve diğer veri ağırlıklı bilimlerde, Python ve R gibi betikli bilgisayar dilleri, elektronik tablolardan açıkça üstündür. Gelişmiş analitik teknikler, tekrarlanabilirlik, denetlenebilirlik ve kod sürümlerinin daha iyi yönetimi ve farklı kişilerin katkıları dahil olmak üzere faydalar sunarlar. Başlangıçta öğrenmeleri daha zor olabilir, ancak daha iyi bilimin faydaları uzun vadede buna değer.

Excel, küçük ölçekli veri girişi ve hafif analiz için uygundur. Microsoft, Excel’in varsayılan ayarlarının çoğu zaman çoğu kullanıcının ihtiyaçlarını karşılamak için tasarlandığını söylüyor.

Açıkça, genom bilimi yaygın bir kullanım durumunu temsil etmez. 100 satırdan büyük herhangi bir veri seti, bir elektronik tablo için uygun değildir.

Veri yoğun alanlarda (özellikle yaşam bilimlerinde) araştırmacıların daha iyi bilgisayar becerilerine ihtiyacı vardır. Yazılım Marangozluğu gibi girişimler, araştırmacılara atölye çalışmaları sunar, ancak üniversiteler ayrıca lisans öğrencilerine ihtiyaç duyacakları ileri analitik becerileri vermeye daha fazla odaklanmalıdır.


Enron, bilgisayar bilimi araştırmacıları için olası olmayan bir veri kaynağı haline geliyor


Konuşma tarafından sağlanan

Bu makale, Creative Commons lisansı altında The Conversation’dan yeniden yayınlanmıştır. Orijinal makaleyi okuyun.Konuşma

Alıntı: Excel otomatik düzeltme hataları hâlâ genetik araştırmaların başını belaya sokuyor ve bilimsel titizlik (2021, 27 Ağustos) konusundaki endişeleri artırıyor.

Bu belge telif haklarına tabidir. Özel çalışma veya araştırma amaçlı herhangi bir adil işlem dışında, yazılı izin alınmadan hiçbir bölüm çoğaltılamaz. İçerik yalnızca bilgi amaçlı sağlanmıştır.





#Excel #otomatik #düzeltme #hataları #hala #genetik #araştırmaları #rahatsız #ediyor #bilimsel #titizlik #konusunda #endişeleri #artırıyor