Einsendeaufgaben EA-Besprechung | 32711 | SS 2020 | EA1 42200 | 04.06.2020

Hochschulabschluss
Bachelor of Science
Studiengang
M.Sc. Wirtschaftsinformatik
Hi zusammen,

ich war mal so frei und habe einen neuen Thread für die erste EA in BI erstellt.
Ich selbst werde damit diese Woche beginnen, vielleicht findet sich ja wer zum Austauschen.

Grüße
 
Hey,

ich habe bis jetzt die erste Aufgabe fertiggestellt und mache mich jetzt an den Rest.
Aufgabe1.) B - C - C - C

Hast du bereits Lösungen zum teilen?

Danke und beste Grüße

Marcel
 
Hallo Kollegen. Seid ihr schon weiter?
Also hier schon mal A1 und A4 aus meiner Sicht.
A1: b-c-c-c
A4: falsch, falsch, richtig, falsch, falsch, richtig, falsch, richtig, falsch, falsch

hat jemand schon Lösungsansätze für 2.2/2.3/3.2? Wäre sehr dankbar darum!
 
Hallo zusammen,

ich sitze gerade an der zweiten Aufgabe der Einsendearbeit. Sind bei der ersten Teilaufgabe als "Zielsetzungen des DM" die Grundaufgaben und deren Erkenntnisziele gemeint? Wie habt ihr die Aufgabenstellung interpretiert?

Konntet ihr den Entscheidungsbaum schon aufstellen? Mein Baum hat das Attribut "Einkommen" als Wurzelknoten, habt ihr das auch so?

Für detaillierteren Austausch gerne einfach anschreiben :)

Liebe Grüße
Chris
 
Hi Chris,

ich habe nach Einkommen, dann durchschnittliche PD und schließlich Alter aufgespalten.

Zu 2.1: Habe dazu recherchiert und bin auch nur darauf gekommen, dass es sich um die Grundaufgaben/Erkenntnisziele handeln kann. Ich habe das Ganze jetzt in 150 Worte gepackt. Da steht ja ausdrücklich, dass das kurz sein soll.

Wie schaut bei dir aus? Hast du noch eine Idee zu 2.3? Ich steige da aktuell noch nicht durch.

Viele Grüße,
Michell
 
Hey,

die Aufspaltung habe ich genauso :) Aufgabe 2.3 steht für das Wochenende an, da habe ich aktuell neben der Arbeit leider keinen Kopf für. Wenn jemand einen Anhaltspunkt hat, dann bin ich aber für jeden Tipp dankbar!

Bei Aufgabe 2.1 komme ich auf 270 Wörter. Ich hoffe, dass das nicht zu viel ist...

Viele Grüße
 
Hallo ihr beiden,

ich habe das ganze auch anhand der Grundaufgaben geschrieben.
Aber ich denke auch, dass das das Gemeinte ist, denn in den Kurseinheiten steht unter diesen Grundaufgaben ja auch jedes mal explizit sowas wie "das Ziel dabei ist..." und das ist dann bestimmt auch mit dem Punkt, der gemeint ist.

Bei dem Entscheidungsbaum habe ich auch mit dem Einkommen begonnen,
dabei kommen bei mir 2 reine und ein unreiner Knoten heraus. Dann habe ich den unreinen anhand der Pendelstrecke unterteilt,
was wieder 2 reine und einen unreinen Knoten ergab und den habe ich dann nach dem Durchschnittsalter unterteilt,
das ergab dann schließlich 2 weitere reine Knoten und somit auch nur reine Wurzelknoten.

Aber ich habe keine absolut keine Ahnung, was bei 2.3 gemeint ist.
Bei der Aufgabe 2.2 entstehen doch bei de Unterteilung nach dem Einkommen und der Pendelstrecke jeweils mehr als 2 Klassen und das funktioniert doch auch mit der angegebenen Formel?!

Die Aufgaben 1 und 4 haben ich genauso wie Mischi.

Viele Grüße
Marcel
 
Hi zusammen,

leider kam ich nicht, wie im Eingangspost erwähnt, dazu die Aufgaben schneller zu machen. Möchte mich aber jetzt der Diskussion anschließen.
Die Aufgaben 1 und 4 habe ich genau so wie Mischi.
Die 2. Aufgabe habe ich (bis auf 2.3, welche noch aussteht) wie Marcel: das arith. Mittel des Alters betrug bei der letzten Teilung gerundet 44 und somit ergaben sich zwei reine Knoten (>44, =<44).
Die vier möglichen Zielsetzungen habe ich auch auf die Grundaufgaben bezogen, da mir das naheliegend schien.

Dieses WE widme ich mich der letzten, also der 3., Aufgabe. Dazu verstehe ich aber nicht, woher die Zahlen für die Berechnung der Zeile auf Seite 101, Abschnitt Cluster zusammenfassen, stammen. Also das 0,5*6 + 0,5*8 - 0,5* |6-8|. Könnt ihr mir hier helfen?

Grüße,
Michi
 
Hey Michi,

die Formel stammt aus dieser recht unübersichtlichen Formelauflistung auf Skriptseite 98 :) für α, β, γ und δ werden die Werte aus der Verfahrenstabelle auf Seite 99 eingesetzt, je nach Verfahren.

Bitte bei Aufgabe 3 beachten: Es handelt sich um eine Ähnlichkeitsmatrix, nicht um eine Distanzmatrix. Hier gibt es leichte Abweichungen bei der Bestimmung der neuen Distanzen.

Viele Grüße
 
Hier übrigens noch ein Anhaltspunkt für aufgabe 2.3 aus Moodle:
Moodle-Link

Ich verstehe das zwar noch immer nicht hundertprozentig, aber immerhin ist es schonmal ein Anfang :)
 
Zu 2.2: ich habe meine Aufspaltung doch noch einmal angepasst.

Zu 3.3: Ich habe jetzt einfach die Manhattan-Distanz von einem Produkt des Prod.typs 0 bzw. 1 zu dem beschriebenen Produkt berechnet und damit X den Margarinen zugeordnet, da die Ähnlichkeit wesentlich größer ist, als zu den Butterprodukten. Ich habe exemplarisch mit Ho (0) und We (1) gerechnet.

Ho & X -> |2-1|+|3-2|+|3-1|= 4 (mit Ho als Beispiel für Prod.typ 0)

We & X -> |6-1|+|7-2|+|6-1|= 15 (mit We als Beispiel für Prod.typ 1)

Die Faktoren sind mir ein einziges Rätsel und es geht nicht aus dem Skript hervor, was ich wann und wofür einsetzen soll, zumal die Formel zur Berechnung der Manhattan-Distanz nichts derartiges hergibt :-(

Habt ihr noch was zu 2.3 ausfindig machen können? Mir will dazu einfach nichts einfallen.
 
Hey Michi,

die Formel stammt aus dieser recht unübersichtlichen Formelauflistung auf Skriptseite 98 :) für α, β, γ und δ werden die Werte aus der Verfahrenstabelle auf Seite 99 eingesetzt, je nach Verfahren.

Bitte bei Aufgabe 3 beachten: Es handelt sich um eine Ähnlichkeitsmatrix, nicht um eine Distanzmatrix. Hier gibt es leichte Abweichungen bei der Bestimmung der neuen Distanzen.

Viele Grüße

Schon mal vielen Dank für die Info! Leider verstehe ich nicht, welche Formel ich wann anwenden muss (also noch bei 3.2).
Ich verstehe nicht ganz, was i*, j*, i und j sind. Könnte mir das evtl. jemand anhand des Beispiels erklären?
Danke vorab!
 
Zuletzt bearbeitet:
Also ich beziehe mich jetzt auf den Moodle-Eintrag zu 3.2, bei der was bezüglich des Single-Linkage-Verfahrens gefragt wurde und der Kollege vom Lehrstuhl sagte, dass minimale Distanz mit maximaler Ähnlichkeit gleichzusetzen sei.

Dementsprechend habe ich die Formel für die Manhattan-Distanz 1 zu 1 in 3.3 übernommen. Ob's richtig ist, kann ich leider nicht sagen. Das ist für mich wie 2.3 noch sehr sehr unklar.

Viele Grüße
 
Ich hadere auch mit der Aufgabe 2.3.
Hat hier noch jemand zufällig einen Lösungshinweis für uns?

Beste Dank und beste Grüße

marcel
 
Kurz und knapp und ohne Garantie auf Korrektheit:

Maß aus der Aufgabe: Impurity = Minimum des Anteils von Ja oder Nein.

Wenn der Anteil von ja = 0,6 (Mehrheitsanteil) dann ist der Anteil von nein = 0,4. Impurity wäre demnach der Anteil von nein, also 0,4 (da minimum). Für 2 Klassen (ja, nein) geht das in Ordnung, weil quasi das, was nach Abzug des Mehrheitsanteils übrig bleibt, immer der minimale Anteil ist.

Bei mehr als 2 Klassen wird das schwieriger. Beispiel mit fiktiven Zahlen:
ja: 0,6
nein: 0,3
vielleicht: 0,1

Laut oben angegebener Formel gilt folgendes: Impurity = min(0,6, 0,3, 0,1) = 0,1

Heißt im Gegensatz, dass die Purity 0,9 sein müsste. Dies ist falsch, weil die Purity lediglich als der Mehrheitsanteil definiert wird, also wäre in diesem Beispiel die Klasse ja mit Anteil 0,6 als Purity korrekt. Somit müssten wir wieder auf die reguläre Impurity-Formel aus dem Skript zurückgreifen, um die Impurity für mehr als 2 Klassen korrekt bestimmten zu können (Impurity = 1-Mehrheitsanteil). In diesem Falle wären dies 1-0,6 = 0,4.

Steht übrigens genauso, nur etwas komplizierter, in dem Moodle-Link, den ich vor ein paar Tagen gepostet habe. Ich hoffe das hilft etwas. Für mehr Beschreibung reicht die Zeit leider nicht.
 
Hallo zusammen,
ich habe mich heute Nachmittag durch die Aufgabe 3.2 gekämpft. Die Distanzberechnung bei agglomerativem Clustering, s. S. 99 Skript kam mir recht kompliziert vor. Ich habe nach längerem Hirnen ein wenig gesucht und bin auf die Seite https://www.uni-kassel.de/fb07/file...tivariate/Multivariate12_Clusteranalyse2_.pdf gestoßen. Hier ist das ein wenig pragmatischer erläutert.

Ich hoffe folgende Lösung gefunden zu haben:
- Fehlende Werte Produkt Bo von links nach rechts (letzte Zeile): 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,4 0,5 0,4 (berechnet über den M-Koeffizienten)
- die zwei ähnlichsten Produkte haben den höchsten Wert, wären somit mit 0,9 Sa,Ra
- damit bilde ich ein neues Cluster Sa,Ra in der dritten Zeile und Spalte. Über die Methode des o.g. Links nehme ich über das single-linkage Verfahren den höheren Wert, da es sich ja um eine Ähnlichkeits-, nicht um eine Distanzmatrix handelt
--> hier kommen in die Zeile des Clusters Ra,Sa 0,6 0,4 1 (links nach rechts) und in die Spalte Ra,Sa 1 0,7 0,3 0,4 0,6 0,8 0,6 0,5 (oben nach unten)
- die restlichen Werte der Zeilen und Spalten bleiben unverändert, da sich die Ähnlichkeiten der Produkte analog der Berechnung in einer Distanzmatrix nicht verändert haben.

Was meint ihr?

Grüße
 
Hallo mcclurexl,

ich denke, dass du das richtige gefunden hast. So ist es auch im Moodle gesagt worden:
Das heißt, dass die Berechnung über die maximale Ähnlichkeit erfolgt.
Und ich bin dann auf deine Werte gekommen.

Gruß
Marcel
 
Hallo zusammen,
ich habe mich heute Nachmittag durch die Aufgabe 3.2 gekämpft. Die Distanzberechnung bei agglomerativem Clustering, s. S. 99 Skript kam mir recht kompliziert vor. Ich habe nach längerem Hirnen ein wenig gesucht und bin auf die Seite https://www.uni-kassel.de/fb07/file...tivariate/Multivariate12_Clusteranalyse2_.pdf gestoßen. Hier ist das ein wenig pragmatischer erläutert.

Ich hoffe folgende Lösung gefunden zu haben:
- Fehlende Werte Produkt Bo von links nach rechts (letzte Zeile): 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,4 0,5 0,4 (berechnet über den M-Koeffizienten)
- die zwei ähnlichsten Produkte haben den höchsten Wert, wären somit mit 0,9 Sa,Ra
- damit bilde ich ein neues Cluster Sa,Ra in der dritten Zeile und Spalte. Über die Methode des o.g. Links nehme ich über das single-linkage Verfahren den höheren Wert, da es sich ja um eine Ähnlichkeits-, nicht um eine Distanzmatrix handelt
--> hier kommen in die Zeile des Clusters Ra,Sa 0,6 0,4 1 (links nach rechts) und in die Spalte Ra,Sa 1 0,7 0,3 0,4 0,6 0,8 0,6 0,5 (oben nach unten)
- die restlichen Werte der Zeilen und Spalten bleiben unverändert, da sich die Ähnlichkeiten der Produkte analog der Berechnung in einer Distanzmatrix nicht verändert haben.

Was meint ihr?

Grüße

Habe ebenso alles genau, wie du!
 
Habe ebenso alles genau, wie du!
Ich habe hier eine kleine Abweichung und bleibe auch bei 2-maligem Nachrechnen dabei:

Bo von links nach rechts (letzte Zeile): 0,4 0,5 0,5 0,6 0,6 0,6 0,7 0,4 0,5 0,4 1

Daraus ergibt sich dann auch eine kleine Abweichung bei der nächsten Aufgabe (Spalte Ra,Sa von oben nach unten):
1 0,7 0,3 0,4 0,6 0,8 0,6 0,4
 
Zurück
Oben