Einsendeaufgaben EA-Besprechung SS 2016 EA1 42200 (02.06.2016)

Hallo zusammen,
anbei ein erster Vorschlag zur EA. Ich würde mich über Rückmeldungen und Verbeserungen freuen.

Vielen Dank und viele Grüße

Aufgabe 1

a) A

b) C

c) B

d) D



Aufgabe 2

a) Syntaktischer Fehler: keine Interpretation der Marke Golf und des Modells VW möglich

Semantischer Fehler: Anrede „Herr“ für den Vornamen Marie

Coverage Fehler: fehlende Farbe bei Lfd Nr. 573

C:%5CUsers%5CSimona%5CAppData%5CLocal%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image001.png




b) Familienstand: 0,5 x 5/12 + 0,5 x 6/12 = 11/24

Alter: 0,5 x 1/3 + 0,5 x 1/3 = 1/3

Einkommen: 0,25 x 0 + 0,5 x 0,5 + 0,25 x 0 = 0,25

C:\Users\Simona\AppData\Local\Temp\msohtmlclip1\01\clip_image002.png

upload_2016-4-30_0-11-21.png

c) verheiratete Personen, älter als 40 mit „mittleren bis höherem Einkommen“



Aufgabe 3

a) – Minimierung der paarweisen Distanzen innerhalb des Clusters

- Maximierung der paarweisen Distanzen zwischen zwei Clustern



Optimierung der Partitionierung bzgl der Kriterien lassen sich nicht stets vereinbaren Kompromisse sind notwendig. Es wird zunächst eine Partionierung bestimmt und dann Trainingsinstanzen iterativ verschoben bis keine Verbesserung mehr erzielt werden können.



Euklidische Distanz
C:\Users\Simona\AppData\Local\Temp\msohtmlclip1\01\clip_image004.png




Manhatten Distanz
C:\Users\Simona\AppData\Local\Temp\msohtmlclip1\01\clip_image006.png




b)

upload_2016-4-30_0-12-35.png

upload_2016-4-30_0-13-59.png

Aufgabe 4

a) Falsch

b) Richtig

c) Richtig

d) Falsch

e) Falsch

f) Richtig

g) Richtig

h) Richtig

i) Richtig

j) Richtig
 
Anbei meine bisherigen Lösungen

1a) C
1b) C
1c) C
1d) D

2a) Analog zu Simona

2b)

Einkommen unterteilt:
- hoch --> Van
- niedrig --> Kleinwagen
- mittel --> unterteilt
- verheiratet --> Van
- ledig --> Kleinwagen

2c)

- hohes Einkommen und für verheiratete Personen mit mittlerem Einkommen.

Die weiteren Ergebnisse lade ich hoch, sobald ich diese gerechnet habe. Evtl. gibt es ja weitere Meinungen.
 
Zur Aufgabe Entscheidungsbaum:

Ich habe das Alter nicht berücksichtigt, da die Knoten damit immer zu unrein waren.
Also erst nach Familienstand und danach Einkommen um reine Endknoten zu erhalten.


Partitionierendes Clustering:

Partitionierende Verfahren orientieren sich, je nach Algorithmus, an einer Distanz- oder einer Dichtfunktion. Ziel dabei ist es, die Distanz zwischen den einzelnen Clustern entweder paarweise zu minimieren oder paarweise zu maximieren. Bei der Optimierung müssen häufig in Bezug auf die Komplexität des Klassifikators und die vorgegebene Zielanzahl von Clustern Kompromisse eingegangen werden. Hierbei ist bezüglich numerischer Skalen auf die Manhattan- oder Euklidische-Distanz zu setzen. Für nominale Skalen kommt z.B. das Chi-Quadrat-Maß und für binäre Skalen der Jaccuard-Koeffizient in Frage.

Ein weiteres Kriterium ist die Varianzminimierung im Cluster, in dem die Abstände zum Zentroiden minimiert werden.

Bei den Dichtefunktionen werden Kernpunkte definiert, welche nach der Vorgabe von ε als Abstandsmaß, mindestens k weitere Punkte innerhalb von ε haben. Dabei bilden Kernpunkte, welche einen geringeren Abstand als ε zueinander haben, einen Cluster.
 
Aufgabe 1)

analog Floh

Aufgabe 2a)

analog Simona

Änderungen zu 2b) siehe unten
 
Zuletzt bearbeitet:
Aber Einkommen hat am Anfang doch nicht die geringste Impurity?
 
Hallo Stefan,

ich habe den Fehler gefunden. Demnach wird zuerst nach Familienstand und dann nach Einkommen unterteilt. Das Alter kann vernachlässigt werden, da nach dem zweiten Attribut das Abbruchkriterium Impurity = 0 erreicht ist und alle Datensätze zugeordnet sind.

2b)
e-baum.JPG
2c) Ledige Personen mit hohem Einkommen und verheiratete Personen mit mittlerem bis hohem Einkommen fahren einen Van.
 
Aufgabe 3a)

analog Simona

Aufgabe 3b)

clustering.JPG

Aufgabe 3c)
dendrogramm.JPG

Aufgabe 4)

a) richtig b) richtig c) falsch d) falsch e) richtig f) falsch g) richtig h) richtig i) falsch j) richtig

Über Rückmeldungen freue ich mich.
 
Bei deinem Dendrogramm fasst du x2 und x4 zusammen. Ist aber in deiner Distanzmatrix nicht vermerkt.
in deinem Dendrogramm ist das erste Cluster aus x4 und x5 gar nicht vermerkt!

Und bei deiner D^2 ist der neue Abstand von x3 zum Cluster x1,x2 flasch. Nach Single-Linkage müsste es 5 sein (kleinster Abstand).
 
Das Dendrogramm bezieht sich auf Tabelle 5 der EA, welche mit der Distanzmatrix aus 3b) nichts zu tun hat. Und bei D2 fasse ich x1 und x2 zusammen. x3 bleibt in diesem Schritt doch komplett unberührt.

Wie denkst du über Aufgabe 4)?
 
Gut das du das gerade sagst...ich habe das Dendrogramm auf Basis der Aufgabe davor gemacht xD
 
Und x3 wird berührt, denn es hat zu x2 und x1 unterscheidliche Distanzen ;)
 
Dann müsste aber auch x4x5 6 und nicht 7 sein bei D2, oder?

distanz2.JPGdistanz3.JPG
 
Zuletzt bearbeitet:
Jep...so hab ich es auch. :)
 
Zu Aufgabe 2 b)

Beim Familienstand erhalte ich folgende Impurity: 1/2 = 1/2*5/6 + 1/2*(1-5/6)
=> vgl. KE2, S. 83f: hier wird die Aufsplittung der Medikamente auf Basis 8 und nicht 12 gerechnet, sodass m.E. in der oberen Rechnung die Basis 6 und nicht 12 gilt.

Alter: 1/2 = 1/2*1/3 + 1/2*2/3
Einkommen: 1/4 = 1/2*1/2 + 1/4*0 + 1/4*0

Demnach ist die Impurity vom Einkommen am niedrigsten und es wird darunter unterteilt.

Hat hier jemand ähnliche Gedankengänge oder kann meinen Knoten lösen, falls ich falsch liege?

Besten Dank!
 
Ich habe dies tatsächlich im ersten Gedankengang auch so gerechnet wie du. die gesamtbasis sind zwölf personen, davon 6 verheiratet und 6 ledig. betrachtet man die impurity für ledig und verheiratet getrennt erhälst du jeweils 1/6 (1 - 5/6). die gesamtimpurity für den familienstand (also alle 12 objekte) erhälst du dann durch rechnung von 0,5*1/6 + 0,5*1/6 = 1/6. So ist die gesamtimpurity für familienstand geringer als für alter (1/3) und einkommen (1/4). der unterschied in beiden ansätzen ist, dass du da max + min rechnest. das ist so nicht ganz korrekt. du musst für jeden zweig 1 - max rechnen um die verunreinigung zu erhalten.
So hab ich es zumindest verstanden. Ich hoffe, das hilft dir weiter.

Viele Grüße
 
Hallo Mikrobine,

danke, da hast du mir geholfen. Kann es jetzt auch in der KE nachvollziehen.

Eine andere Sache zu Aufgabe 3 c)

Hier habe ich das Dendrogramm etwas anders, da sich m.E. die erste Clusterung nach 1 ergibt. In KE2, S. 101 ist ebenfalls die D0 mit der geringsten Distanz als erster Clusterpunkt gewählt worden. Daraus leite ich ab, dass das erste Cluster x2,x4 bei 1 zusammengeführt wird und das zweite Cluster x2,x4,x5 bei 3, etc... Dendrogramm anbei

Was haltest du/ihr davon?
 

Anhänge

  • Mappe Aufgabe 3c.pdf
    23,4 KB · Aufrufe: 112
Danke für den Hinweis. Ich habe meins nochmal überarbeitet.
 
@Simona Bei Aufgabe 4 i denke ich, dass die Aussage falsch ist. Hier wird doch ein Fall beschrieben, bei dem das Ergebnis eines Tests "negativ" ist (z.B. Patient ist NICHT krank) und dies der Realität entspricht (also richtig ist). Demnach müsste doch eine richtig-negative Klassifizierung KEIN Fehler sein.
 
Zurück
Oben