Einsendeaufgaben EA-Besprechung SS 2018 EA1 42200 (07.06.2018)

Bei Aufgabe 3b) bin ich mir aktuell noch nicht 100% sicher, habe mich am Beispiel aus dem Skript orientiert, mein bisheriger Ansatz wie folgt:
upload_2018-5-21_12-8-39.png


Hat jemand eine Lösung für 3c) ?
Meine bisherigen Überlegungen dazu:
3c)
"Aufgrund des hohen Konfidenzwertes der vorliegenden Regeln (in 7 von 10 Fällen kaufen die Kunden die Artikel der Spalte Konklusion, wenn sie zuvor das Produkt / die Produkte der Spalte Prämisse gekauft haben), ist es von Vorteil, diese Produkte als Wohlfühlpaket anzubieten, um einen höheren Absatz zu erzielen. Theoretisch könnten demnach alle oben genannten Kombinationen als Wohlfühlpakete angeboten werden"
 

Anhänge

  • upload_2018-5-21_9-10-0.png
    upload_2018-5-21_9-10-0.png
    37,6 KB · Aufrufe: 61
  • upload_2018-5-21_9-10-35.png
    upload_2018-5-21_9-10-35.png
    20,3 KB · Aufrufe: 58
  • upload_2018-5-21_9-15-48.png
    upload_2018-5-21_9-15-48.png
    13,6 KB · Aufrufe: 54
  • upload_2018-5-21_11-55-32.png
    upload_2018-5-21_11-55-32.png
    35 KB · Aufrufe: 41
Zuletzt bearbeitet:
Bezüglich Aufgabe 3b:

Ich bin mir nicht sicher, ob das so stimmt. Ich komme auch auf keine 4er Kombination, da Mindestsupport für 3 gleichzeitig nicht erfüllt ist?

Bildschirmfoto 2018-05-21 um 10.07.37.png Bildschirmfoto 2018-05-21 um 10.07.45.png Bildschirmfoto 2018-05-21 um 10.07.51.png Bildschirmfoto 2018-05-21 um 10.07.55.png Bildschirmfoto 2018-05-21 um 10.07.51.png
 
Bei 3a ist noch folgende Frage: "Nennen Sie schließlich den Mindestsupport und die Mindestkonfidenz, welche sich aus den oben beschriebenen Schätzungen der MitarbeiterInnen ergeben."

Was habt ihr denn da?
 
Bezüglich Aufgabe 3b:

Ich bin mir nicht sicher, ob das so stimmt. Ich komme auch auf keine 4er Kombination, da Mindestsupport für 3 gleichzeitig nicht erfüllt ist?

Anhang anzeigen 12060 Anhang anzeigen 12061 Anhang anzeigen 12062 Anhang anzeigen 12063 Anhang anzeigen 12062
Hallo Fafro24.
Habe die Aufgabe nochmal durchgerechnet und komme zu folgendem Ergebnis:

upload_2018-5-21_13-15-10.png
upload_2018-5-21_13-15-40.png
Meine Lösung unterscheidet sich von deiner für Kombi aus q1, q2,q3. Hier verstehe ich deine Berechnung für "q2 --> q1,q3" nicht bzw. komme auf einen anderen Wert: {q1,q2,q3}/{q2}= 2/4 = 50% --> erfüllt also nicht die Mindestkonfidenz, somit würde ich anstatt dessen Regel q2,q3 --> q1 aufnehmen. Ich hoffe, ich habe mich hier nicht verrechnet oder stehe auf dem Schlauch ... ;)
Zudem hast du einmal Handcreme falsch verwendet in der Regel q6 --> q3 (q3 ist Duschgel) ;)
 

Anhänge

  • upload_2018-5-21_13-15-32.png
    upload_2018-5-21_13-15-32.png
    35,2 KB · Aufrufe: 36
Hallo zusammen,
habe nachträglich und ziemlich verspätet für das Modul angefangen.

Bin noch etwas verwirrt. Habe mir die Fragen in der EA angeschaut. Auf dem Deckblatt sowie auf der Seite für den Wahlfach steht "Kurseinheit 2".
Die Fragen beziehen sich jedoch auf die Kurseinheit 1, soweit ich es überprüft habe.

Stimmt hier etwas nicht?

upload_2018-5-21_14-17-33.png
 
Hallo zusammen,
habe nachträglich und ziemlich verspätet für das Modul angefangen.

Bin noch etwas verwirrt. Habe mir die Fragen in der EA angeschaut. Auf dem Deckblatt sowie auf der Seite für den Wahlfach steht "Kurseinheit 2".
Die Fragen beziehen sich jedoch auf die Kurseinheit 1, soweit ich es überprüft habe.

Stimmt hier etwas nicht?

Anhang anzeigen 12069
ich glaub, dass darfst du nicht so genau nehmen, denn bei Aufgabe 4 brauchst du auch KE 3 :-)
 
Anbei meine Lösung für Aufgabe 2.2 Danke für eure Hilfe ;)

4.1 richtig Siehe KE 3
4.2 richtig siehe KE 3 S.22
4.3 richtig (kein Beleg aus KE...) würde hier auf "richtig" tippen, macht ja schließlich Sinn oder?
4.4 falsch siehe KE2 S.41
4.5 richtig siehe KE 2 S. 41, hier gibt es m.E.n. keine eindeutige Aussage siehe z.B. folgenden Satz auf S.41: "Ein Mittelweg ist es, einen Ersatzwert zu bestimmen" --> würde hier aber auf richtig tippen, da man prinzipiell den Datensatz ausschließen kann, ob das sinnvoll ist, ist eine andere Frage.
4.6 falsch siehe KE 2 S.52:
"Der Vorgang der Klassifizierung kann z. B. ebenfalls als Vorhersage interpretiert werden: aufgrund der Attributwerte der Attribute in Qf wird eine Vorhersage über den unbekannten Wert des Klassenattributs in Qg getroffen. Tatsächlich ist der Begriff Vorhersage im Sinne der Approximation ganz ähnlich zu verstehen, nur dass nicht eine diskrete nominale Klasse vorhergesagt wird, sondern ein numerischer Wert. Vorhersage ist hier also als Kurzform von numerischer Vorhersage gemeint."
4.7 richtig siehe KE 2 S. 92:" Hierarchische Verfahren bilden Cluster, indem sie Gruppen von Trainingsinstanzen entweder aufspalten oder zusammenfügen. Ersterer Fall wird als divisives, letzterer Fall als agglomeratives Clusteringverfahren bezeichnet. Agglomerative Verfahren: Hier liegt zu Beginn in jedem Cluster genau eine Instanz. Über den Zeitverlauf werden diese schrittweise zusammengefügt, bis nach dem letzten Schritt genau ein Cluster übrig bleibt, in dem alle Instanzen liegen
un 4 Schritte auf S. 97
4.8 richtig siehe KE 2 S. 108 unten
4.9 falsch siehe KE 2 S. 94: "Beide Distanzmaße setzen quantitative Attribute voraus. Bei qualitativen, insbesondere binären Attributen sind theoretisch andere Distanzmaße wie der Jaccard- Koeffizient oder der M-Koeffizient einzusetzen (Grimmer & Mucha, 1998). In der Praxis sind Konzepte mit ausschließlich qualitativen Attributen jedoch selten sodass hier nur der Fall X ⊆ RNQ betrachtet werden soll"
4.10 falsch ; Ausführungen zu Projektionsverfahren siehe KE 2, S.62 ff. --> angegebener Nachteil nicht explizit genannt --> würde hier eher zu falsch tendieren, weil es für mich eine schwierige Interpretation kein Nachteil ist...
Erstmal vielen Dank, dass du deine Lösung hier gepostet hast. :thumbsup:
2 Fragen hab ich allerdings:
1. Woher weiß ich, ob ich beim Produktinteresse „ja“ oder „nein“ nehme?:confused:
2. Beim ersten Mal der Berechnung der Impurity für die Pendeldistanz hast du bei „mehr als 30km“ und „nein“ 4/5. Wie kommst du da drauf? Müssten es nicht 2/3 sein?
 
Hallo Fafro24.
Habe die Aufgabe nochmal durchgerechnet und komme zu folgendem Ergebnis:

Anhang anzeigen 12066
Anhang anzeigen 12068
Meine Lösung unterscheidet sich von deiner für Kombi aus q1, q2,q3. Hier verstehe ich deine Berechnung für "q2 --> q1,q3" nicht bzw. komme auf einen anderen Wert: {q1,q2,q3}/{q2}= 2/4 = 50% --> erfüllt also nicht die Mindestkonfidenz, somit würde ich anstatt dessen Regel q2,q3 --> q1 aufnehmen. Ich hoffe, ich habe mich hier nicht verrechnet oder stehe auf dem Schlauch ... ;)
Zudem hast du einmal Handcreme falsch verwendet in der Regel q6 --> q3 (q3 ist Duschgel) ;)


Super danke dir!

Hast du ne Idee für 2c?
 
Hallo Westnic,

bei der q1,q3,q6-Kombination komme ich auf andere Ergebnisse (siehe Anhang), da meiner Meinung nach {q1,q3,q6}=3 (Support 30%, Items t4, t5 und t8).

Liebe Grüße
Joe
 

Anhänge

  • 3_Item_kombi.JPG
    3_Item_kombi.JPG
    45 KB · Aufrufe: 47
Bei 3a ist noch folgende Frage: "Nennen Sie schließlich den Mindestsupport und die Mindestkonfidenz, welche sich aus den oben beschriebenen Schätzungen der MitarbeiterInnen ergeben."

Was habt ihr denn da?

Kann es sein, dass der Support 40% ist und die Konfidenz 80%?

Herleiten könnte man das aus den folgenden beiden Sätzen: "Eine Kombination von Artikeln, so schätzen sie, ist dann typisch, also möglicher Bestandteil eines typischen Einkaufs, wenn diese Kombination Bestandteil von vier von zehn Einkäufen ist."

und: "Eine Regel der Form „Wer eine Zahnbürste kauft hat auch Interesse an Zahncreme“ kann schätzungsweise dann unterstellt werden, wenn in acht von zehn Fällen, in denen das erste Produkt gekauft wird, das zweite auch dazu gekauft wird."

@Joe1985: Ich komme auch auf deine Ergebnisse. Damit ergibt sich noch die Regel
Duschgel, Zahncreme --> Haarshampoo,
Haarshampoo, Zahncreme --> Duschgel
Haarshampoo, Duschgel --> Zahncreme
bei mir.
 
Hallo zusammen,

ich verstehe nicht ganz wie ihr bei Aufg. 2.2 im zweiten Schritt auf Alter kommt.
Ich ahb folgendes raus und würde somit als zweites nach Distanz aufsplitten.

Attribut Alter: (Durchschnittsalter = 45)
Impurity (Alter <= 45) = min {1;0} = 0 * 1/4 = 0
Impurity (Alter > 45) = min {1;2} = 2/3 * 3/4 = 1/2
Gesamt-Impurity (Alter) = 0 + 1/2 = 1/2


Attribut durchschnittliche tägliche Pendlerdistanz:
Impurity (Distanz < 15) = min {1;1} = 1/2 * 1/2 = 1/4
Impurity (Distanz >= 15 und < 30) = min {0;1} = 0 * 1/4 = 0
Impurity (Distanz > 30) = min {1;0} = 0 * 1/4 = 0
Gesamt-Impurity (Distanz) = 1/4 + 0 + 0 = 1/4


Gruss Merle
 
Danke für deine Lösungen. Ich schreibe nur was zu denen die ich anders habe ;)

1.1: Hast du da einen Beleg mein Gefühl sagt auch C ;)
1.3.: Auch hier kann ich es nicht erklären und schwanke noch mit B ... Kannst du mir das erklären?
4.2 --> meiner Meinung nach richtig:
KE3 S. 22 --> "Demnach sollte Qualitätsmanagement mehr als nur ein Vorgehen oder Plan sein, es sollte ein System sein, welches in den Köpfen der
Mitarbeiter ist und „gelebt“ wird (English 1999). "
4.3 --> nach meinem Verständnis richtig, hast du einen Beleg aus der KE dafür?


Sorry für die verspätete Antwort.. sorry habe etwas durcheinander gebracht..
zu 1.1 siehe KE1 Übungsaufgabe zu Kapitel 2 (Seite 67)
4.2 ist natürlich richtig
4.3 auch richtig (sorry hatte unbemerkt eine andere Klausur vor mir liegen)
bei 1.3 habe ich einfach geraten, da in den Skripten nichts von einstufig bzw zweistufig steht.
 
Hallo zusammen,

ich verstehe nicht ganz wie ihr bei Aufg. 2.2 im zweiten Schritt auf Alter kommt.
Ich ahb folgendes raus und würde somit als zweites nach Distanz aufsplitten.

Attribut Alter: (Durchschnittsalter = 45)
Impurity (Alter <= 45) = min {1;0} = 0 * 1/4 = 0
Impurity (Alter > 45) = min {1;2} = 2/3 * 3/4 = 1/2
Gesamt-Impurity (Alter) = 0 + 1/2 = 1/2


Attribut durchschnittliche tägliche Pendlerdistanz:
Impurity (Distanz < 15) = min {1;1} = 1/2 * 1/2 = 1/4
Impurity (Distanz >= 15 und < 30) = min {0;1} = 0 * 1/4 = 0
Impurity (Distanz > 30) = min {1;0} = 0 * 1/4 = 0
Gesamt-Impurity (Distanz) = 1/4 + 0 + 0 = 1/4


Gruss Merle

Vor der Frage steh ich auch, allerdings weil ich bei Alter und Distanz die gleiche Gesamtimpurity raus hab.

Alter: Gesamtimpurity = 3/4 * 1/3 + 1/4 * 0 = 1/4
Distanz: Gesamtimpurity = 2/4 * 1/2 + 1/4 * 0 + 1/4 * 0 = 1/4
 
Hallo zusammen,

beim Apriori Algorithmus hänge ich im letzten Schritt. Kann mir jemand erklären, wie die 3 Item Kombinationen zustande kommen?
Meine Ergebnisse bis dahin:
upload_2018-5-27_16-0-54.png
 
Hallo zusammen,

beim Apriori Algorithmus hänge ich im letzten Schritt. Kann mir jemand erklären, wie die 3 Item Kombinationen zustande kommen?
Meine Ergebnisse bis dahin:
Anhang anzeigen 12078

Deine Frage kann ich dir leider nicht beantworten, aber q3 -> q6 wird nicht weiter beachtet, da die Mindesrkonfidenz von 70% nicht erreicht wird.
 
eigentlich sehr einfach:
Ich gehe davon aus dass bis zu den 3 Item Kombinationen alles klar ist (steht eigentlich gut im Skript; 1. Support für die 1 Items bilden und Mindestsupport beachten. 2. aus den zulässigen Werten alle Kombinationen bilden (Reihenfolge spielt keine Rolle). 3. erneut für diese Kombinationen den Support bilden. 4. Konfidenz für erlaubte Werte berechnen (Reihenfolge der Items spielt eine Rolle))
Ab jetzt kommen die 3 Item Kombinationen: also (wie im Skript beschrieben) diejenigen Paare aus der Supportmenge bilden, bei denen das erste Item gleich und das zweite unterschiedlich ist:
upload_2018-5-27_22-30-24.png
Hier: q1 gibt es in der erlaubten Menge 3 mal am Anfang (Spalte 2, 3, 6) Also: q1, q2, q3 | q1, q2, q6 | q1, q3, q6
Weiterhin gibt es noch 2 Paare, die mit q3 beginnen, also, q3, q5, q6 als einzig mögliche 3 Item Kombi (Reihenfolge spielt keine Rolle, da Supportmenge)
Für diese Kombinationen wieder nachsehen in den Transaktionsdaten in der Aufgabenstellung, wie oft diese im Verhältnis zur Gesamtanzahl der Transaktionen auftreten und daraus den Support berechnen:
upload_2018-5-27_22-35-19.png
Anschließend alle möglichen Kombinationen aus den Kombinationen erstellen. Einfachstes Vorgehen, damit man nichts vergisst: mit dem niedrigsten Attribut beginnen (bspw, q1) und mit den anderen Kombinieren: q1->q2, q3
Anschließend "umdrehen": q2, q3-> q1
gleiches bei der nächsen Kombi: nächsthöheres q2->q1, q3 und wieder umdrehen q1, q3->q2 and so on.....
Es ergibt sich folgende Kombination:
upload_2018-5-27_22-39-6.png
Danach werden die Konfidenzen berechnet:( Beispiel Spalte 2; q1 -> q2, q3)
Konfidenz q1 (aus der allerersten Supportmenge): 50
Konfidenz der Kombination q1, q2, q3 = 20
ergo: 20/50 = 2/5 = 40 Prozent
Weiter: (Spalte 3)
Konfidenz für q2, q3: 20 (aus 2ter Supportmenge)
Konfidenz q1, q2, q3 = 20
ergo: 20/20 = 2/2 = 100 Prozent

and so on.....

Hoffe es hilft dir weiter. Ich kann dir aber auch leider keine Garantie darauf geben, dass das zu 100 % stimmt, habs mir selbst so zusammengebaut. Falls jemand das korrigieren will, das ist sehr erwünscht :)
Am Ende ist das meine Lösung:
upload_2018-5-27_22-44-59.png
 

Anhänge

  • upload_2018-5-27_22-29-49.png
    upload_2018-5-27_22-29-49.png
    5,2 KB · Aufrufe: 25
eigentlich sehr einfach:
Ich gehe davon aus dass bis zu den 3 Item Kombinationen alles klar ist (steht eigentlich gut im Skript; 1. Support für die 1 Items bilden und Mindestsupport beachten. 2. aus den zulässigen Werten alle Kombinationen bilden (Reihenfolge spielt keine Rolle). 3. erneut für diese Kombinationen den Support bilden. 4. Konfidenz für erlaubte Werte berechnen (Reihenfolge der Items spielt eine Rolle))
Ab jetzt kommen die 3 Item Kombinationen: also (wie im Skript beschrieben) diejenigen Paare aus der Supportmenge bilden, bei denen das erste Item gleich und das zweite unterschiedlich ist:
Anhang anzeigen 12080
Hier: q1 gibt es in der erlaubten Menge 3 mal am Anfang (Spalte 2, 3, 6) Also: q1, q2, q3 | q1, q2, q6 | q1, q3, q6
Weiterhin gibt es noch 2 Paare, die mit q3 beginnen, also, q3, q5, q6 als einzig mögliche 3 Item Kombi (Reihenfolge spielt keine Rolle, da Supportmenge)
Für diese Kombinationen wieder nachsehen in den Transaktionsdaten in der Aufgabenstellung, wie oft diese im Verhältnis zur Gesamtanzahl der Transaktionen auftreten und daraus den Support berechnen:
Anhang anzeigen 12081
Anschließend alle möglichen Kombinationen aus den Kombinationen erstellen. Einfachstes Vorgehen, damit man nichts vergisst: mit dem niedrigsten Attribut beginnen (bspw, q1) und mit den anderen Kombinieren: q1->q2, q3
Anschließend "umdrehen": q2, q3-> q1
gleiches bei der nächsen Kombi: nächsthöheres q2->q1, q3 und wieder umdrehen q1, q3->q2 and so on.....
Es ergibt sich folgende Kombination:
Anhang anzeigen 12082
Danach werden die Konfidenzen berechnet:( Beispiel Spalte 2; q1 -> q2, q3)
Konfidenz q1 (aus der allerersten Supportmenge): 50
Konfidenz der Kombination q1, q2, q3 = 20
ergo: 20/50 = 2/5 = 40 Prozent
Weiter: (Spalte 3)
Konfidenz für q2, q3: 20 (aus 2ter Supportmenge)
Konfidenz q1, q2, q3 = 20
ergo: 20/20 = 2/2 = 100 Prozent

and so on.....

Hoffe es hilft dir weiter. Ich kann dir aber auch leider keine Garantie darauf geben, dass das zu 100 % stimmt, habs mir selbst so zusammengebaut. Falls jemand das korrigieren will, das ist sehr erwünscht :)
Am Ende ist das meine Lösung:
Anhang anzeigen 12083

1.000 Dank für deine Erklärung! Jetzt hab ich es (glaub ich zumindest :)) auch gerafft.
Mir ging es darum, wie man auf die 3er-Kombinationen kommt, also {q1,q2,q3}, {q3,q5,q6}, {q1,q2,q6} und {q1,q3,q6}.
Allerdings habe ich dann doch andere Endergebnisse. Bei der Kombi aus {q1,q3,q6} kommt ein Support von 30% raus und somit ist diese Kombi die einzige, die den Mindestsupport erfüllt.

Bis zu dem Schritt mit der 3er-Kombi hab ich alles auch so wie du.
 

Anhänge

  • Apriori-Algorithmus_1.xlsx
    16,8 KB · Aufrufe: 42
Vor der Frage steh ich auch, allerdings weil ich bei Alter und Distanz die gleiche Gesamtimpurity raus hab.

Alter: Gesamtimpurity = 3/4 * 1/3 + 1/4 * 0 = 1/4
Distanz: Gesamtimpurity = 2/4 * 1/2 + 1/4 * 0 + 1/4 * 0 = 1/4

Genau das Frage ich mich auch. Kann mir da jemand helfen?
 
Zurück
Oben