• RPG-Foren.com

    DIE Plattform für Fantasy & Sci-Fi Rollenspiele

    Ihr findet bei uns jede Menge Infos, Hintergründe zu diesen Themen! Dazu Forenrollenspiele, Tavernenspiele, eigene Regelwerke, Smalltalk und vieles mehr zu bekannten und weniger bekannten RPG-Systemen.

Geschwätz Hilfe bei (Bio-)Statistik

puck

Heldenhaft
Beiträge
1.947
Punkte
83
Hallo zusammen,

ich brüte hier grade über einem Statistikproblem und komme nicht so richtig weiter. Da es unter Rollenspielern auch immer viele Informatiker/Mathematiker/Physiker/usw. gibt, erhoffe ich mir hier Hilfe zu finden.
Ich wüsste gerne mit welcher Wahrscheinlichkeit ich beide Allele einer Heterozygoten Stelle im Genom detektieren kann, wenn ich die Stelle n mal sequenziere. Um technische Artefakte zu vermeiden verwerfe ich alle gefundenen Varianten, die nur in einer "Richtung" sequenziert wurden.
Damit auch biologisch ungebildete Menschen mitmachen können, versuche ich das mal an einem Beispiel zu demonstrieren. Unten zeige ich ein Stück DNA, das 7 Nukleotide lang ist und das in der Mitte (der Teil in Klammern) im + Strang die beiden Allele t oder c haben kann. Bei der Methode, die ich anwende, ist es dem Zufall überlassen, welchen Strang und welches Allel ich sequenziere, es sollten (theorretisch) aber jeweils beide gleich wahrscheinlich gelesen werden.

Code:
+ Strang: 5'-acg(t/c)ctc-3'
- Strang: 3'-tgc(a/g)gag-5'
Nach meinem Verständnis von Statistik sollten sowohl die Wahrscheinlichkeiten ein bestimmtes Allel zu sequenzieren, als auch einen bestimmten Strang zu erwischen, wie der Münzwurf, Binomialverteilt sein, wenn ich alle technischen Einflüsse ignoriere. Wenn ich jetzt wüsste wie häufig ein Allel mindestens sequenziert werden muss, damit die Variant Detection Software die Stelle erkennt, wäre es nicht so schwierig das ganze zu berechnen, aber ich verstehe den Algorithmus nicht ganz. Hier gibts die beste Beschreibung als PDF, die mir der Hersteller bieten kann.
Den Teil 2.1 über die Expectation Maximization könnt ihr gerne ignorieren und annehmen, dass die darin bestimmten Wahrscheinlichkeiten mit Tabelle 1 übereinstimmen und Teil 2.2 verstehe ich auch noch, glaube ich zumindest. Aber ich verstehe nicht so recht an welchen Stellen der Formel in 2.3 sich die vorher bestimmten Wahrscheinlichkeiten wieder finden. Ich bilde mir ein, ab 2.4 wieder alles überblicken zu können. Wer das ganze durschaut, darf aber dennoch gerne was über die Teile schreiben, von denen ich glaube sie verstanden zu haben.

Viel Spaß beim Rätseln und bleibt tapfer,

puck

Ach ja, sollten Verständnisschweirigkeiten betreffend des Fachvokabulars o.ä. auftreten, beantworte ich natürlich jede Frage liebend gerne.
 
Zurück
Oben Unten