bericht.tex0000755000175000001440000000644210634204362012412 0ustar bleihousers%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%% %%% Seminar Data Cleansing, Vorlage %%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \NeedsTeXFormat{LaTeX2e} \documentclass[11pt, a4paper, draft]{report} \usepackage[latin1]{inputenc} % Umlaute werden automatisch umgesetzt %\usepackage[T1]{fontenc} % Standardpackage: unterstützt Schriftauswahl % ... quotchap (adapted) for chapter headings \usepackage[grey, bookman]{quotchap} \usepackage{ngerman,a4} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{bibgerm} \usepackage[a4paper,vmargin=3cm,outer=2.5cm,inner=3cm,twoside,pdftex]{geometry} \usepackage[pdftex, final]{graphicx} %\usepackage[dvips, final]{graphicx} % Captions \usepackage[ruled,hang,small,bf]{caption2} \usepackage[german]{minitoc} \dominitoc \usepackage[dvipsnames,usenames]{color} %\usepackage[pdftex, draft=false, colorlinks=true, % urlcolor=blue, linkcolor=blue, citecolor=blue, %% pagebackref, % pdftitle={Abschlußbericht des Projektes zur Übung Informationsintegration}, % pdfauthor={Vorname Nachname }, % pdfkeywords={JSP Web Services Einkaufsplattform Übung Informationsintegration}]{hyperref} %\usepackage{chapterbib} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Options and commands %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 0 ist keine Kompression, 1 schlecht, 9 gut \pdfcompresslevel=9 % (Keine) Einrückung bei Absatz \setlength{\parindent}{0cm} % Abstand zwischen zwei Absätzen \setlength{\parskip}{0.2cm}% plus0.2cm minus0.2cm} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% User defined commands %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% This is thrown out at some later stage. Only for DEBUG/while writing % show ``commments'' in red boldface \newcommand{\annot}[1]{\textcolor{red}{\textbf{\textit{#1}}}} % Datenbank-Operatoren % UNIONs \newcommand{\Union}% {\ensuremath{\mathrel{\mathord{ \cup }}}} \newcommand{\OuterUnion}% {\ensuremath{\mathrel{\mathord{ \uplus }}}} \newcommand{\MinimumUnion}% {\ensuremath{\mathrel{\mathord{ \oplus }}}} % JOINs \newcommand{\NaturalJoin}% {\ensuremath{\mathrel{\mathord{ \bowtie }}}} \newcommand{\LeftOuterJoin}% {\ensuremath{\mathrel{\rule[0.1ex]{0.10ex}{1.4ex} \mathord{\bowtie}}}} \newcommand{\FullOuterJoin}% {\ensuremath{\mathrel{\rule[0.1ex]{0.10ex}{1.4ex} \mathord{\bowtie} \rule[0.1ex]{0.10ex}{1.4ex}}}} \newcommand{\OuterJoin}% {\ensuremath{\mathrel{\mathord{ \mathring{\bowtie} }}}} \newcommand{\KeyJoin}% {\ensuremath{\mathrel{\mathord{ \bowtie_{\small id=id} }}}} \begin{document} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Titelseite, Abstract und Inhaltsverzeichnis %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %\frontmatter \input{titelabstracttoc} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Der Inhalt, in Kapiteln %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %\mainmatter %\part{Techniken} \input{thema1} \input{thema2} \input{thema3} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Verzeichnisse, Bibliography und Index %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %\backmatter %% ======================================================== \bibliographystyle{plain} \bibliography{lit} \listoffigures \listoftables \end{document} lit.bib0000755000175000001440000000032510200442536011504 0ustar bleihousers@inproceedings{test1, author = "Müller, Karl and Meier, Karla", title = "An Efficient Way of Using latex in a seminar", booktitle = "Research Issues on Latex", pages = "25-36", year = "2003" } quotchap.sty0000755000175000001440000001514410200442544012627 0ustar bleihousers %% %% This is file `quotchap.sty', %% generated with the docstrip utility. % % Changed Version by Stefan Schonger, 2001-12-01 % still GPL'ed, no warranty whatsoever % %% %% The original source files were: %% %% quotchap.dtx %% %% This file is part of the QUOTCHAP package, a package a package for %% creating decorative chapter headings with quotations, a postscript %% output device is needed. Copyright (C) 1998 Karsten Tinnefeld. %% %% This file is NOT part of the LaTeX2e system, but intended for use with %% it. %% %% This file is free software; you can redistribute it and/or modify it %% under the terms of the GNU Library General Public License as published %% by the Free Software Foundation; either version 2 of the License, or %% (at your option) any later version. %% %% This document is distributed in the hope that it will be useful, but %% WITHOUT ANY WARRANTY; without even the implied warranty of %% MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU %% General Public License for more details. %% %% You should have received a copy of the GNU General Public License %% somehow; if not, write to the Free Software Foundation, Inc., 675 Mass %% Ave, Cambridge, MA 02139, USA. %% %% Error Reports in case of UNCHANGED versions to %% %% Karsten Tinnefeld %% Leostrasse 11 %% D-44225 Dortmund %% Germany %% Email: tinnefeld@irb.cs.uni-dortmund.de %% %%%%%%%%%%%%%%% \NeedsTeXFormat{LaTeX2e}[1996/12/01] \ProvidesPackage{quotchap}[2001/12/01 v0.9fa Decorative Chapter Headings with Quotes] %\RequirePackage{ifthen} %\newboolean{quotchap@grey} %% keyval package setup/defaults %\RequirePackage{keyval} %\def\quotchap@ %% liberally copied from geometry.sty %\def\ProcessOptionsWithKV#1{% % \let\@tempa\@empty % \@for\CurrentOption:=\@classoptionslist\do{% % \@ifundefined{KV@#1@\CurrentOption}% % {}{\edef\@tempa{\@tempa,\CurrentOption,}}}% % \edef\@tempa{% % \noexpand\setkeys{#1}{\@tempa\@ptionlist{\@currname.\@currext}}}% % \@tempa % \AtEndOfPackage{\let\@unprocessedoptions\relax}} %%%%%%%%%% Declaration of Options %%%%%%%%%% %\ProcessOptionsWithKV{quotchap} \newif\if@usecolor\@usecolortrue \DeclareOption{grey}{\@usecolortrue} \DeclareOption{nogrey}{\@usecolorfalse} \newcommand*{\@newfontcmd}{\@ifundefined{@defaultcnfont}{\newcommand*}{% \PackageWarning{quotchap}{% You have tried to specify more than one font to be\MessageBreak used for the chapter numbers. I ignore the font\MessageBreak `\CurrentOption'} \providecommand*}} \DeclareOption{charter}{\@newfontcmd{\@defaultcnfont}{bch}} \DeclareOption{palatino}{\@newfontcmd{\@defaultcnfont}{ppl}} \DeclareOption{avantgarde}{\@newfontcmd{\@defaultcnfont}{pag}} \DeclareOption{bookman}{\@newfontcmd{\@defaultcnfont}{pbk}} \DeclareOption{courier}{\@newfontcmd{\@defaultcnfont}{pcr}} \DeclareOption{helvetica}{\@newfontcmd{\@defaultcnfont}{phv}} \DeclareOption{newcentury}{\@newfontcmd{\@defaultcnfont}{pnc}} \DeclareOption{times}{\@newfontcmd{\@defaultcnfont}{ptm}} \DeclareOption{utopia}{\@newfontcmd{\@defaultcnfont}{put}} \ProcessOptions\relax \providecommand*{\@defaultcnfont}{pbk} \if@usecolor \IfFileExists{color.sty}{% \RequirePackage[dvipsnames, usenames]{color} \definecolor{chaptergrey}{rgb}{0.6,0.6,0.6}}{% \PackageError{quotchap}{% The color package is apparently unavailable.\MessageBreak Turn off the `grey' option and come back again}{% Since you did not say `nogrey', quotchap defined chapter numbers to appear\MessageBreak grey. You do not need a color printer, since most printing devices can cope\MessageBreak with grey scales, but you need the color package coming with the graphics\MessageBreak bundle available from CTAN.}} \else \providecommand*{\color}[1]{} \fi \AtEndOfPackage{% \newcommand*{\chapbasefont}{% \usefont{T1}{\@defaultcnfont}{b}{n}\selectfont} \newcommand*{\chapnumfont}{% \usefont{T1}{\@defaultcnfont}{b}{n}\fontsize{100}{130}\selectfont% \color{chaptergrey}} \let\size@chapter\huge \providecommand*{\chapterheadstartvskip}{\vspace*{-2cm}}%.5\baselineskip}} % was 2.3 \providecommand*{\chapterheadbetweenvskip}{\vspace*{1\baselineskip}} \providecommand*{\chapterheadendvskip}{\vspace{1.7\baselineskip}} \providecommand*{\sectfont}{\relax} \@ifundefined{@mainmattertrue}{\newif\if@mainmatter\@mainmattertrue}{}} \newenvironment{savequote}[1][2cm]{% used to be 10cm \begin{lrbox}{\@quotebox} \begin{minipage}[t]{#1}\footnotesize\slshape \ignorespaces}{% \unskip\end{minipage}\end{lrbox} \global\setbox\@quotebox\copy\@quotebox \global\let\@printcites\@iprintcites \ignorespacesafterend} \newcommand{\qauthor}[1]{% \par\smallskip {\raggedleft\upshape #1\qquad\hbox{}\par}\bigskip} \newsavebox{\@quotebox} \let\@printcites\relax \renewcommand\chapter{% \if@openright\cleardoublepage\else\clearpage\fi \thispagestyle{plain}% \global\@topnum\z@ \@printcites \@afterindentfalse \secdef\@chapter\@schapter} \renewcommand{\@makechapterhead}[1]{\chapterheadstartvskip% {\size@chapter{\sectfont\raggedleft {\ifnum \c@secnumdepth >\m@ne% \if@mainmatter\raisebox{0.8cm}{\chapbasefont}\chapnumfont\thechapter% \fi\fi \par\nobreak}% {\raggedleft\advance\leftmargin10em\interlinepenalty\@M \chapterheadbetweenvskip \bfseries #1\par}} \nobreak\chapterheadendvskip}} \renewcommand{\@makeschapterhead}[1]{% {\let\c@secnumdepth\m@ne\@makechapterhead{#1}}} \newcommand*{\@iprintcites}{% \vbox to\z@{\copy\@quotebox\vss} \global\let\@printcites\relax} %% \CharacterTable %% {Upper-case \A\B\C\D\E\F\G\H\I\J\K\L\M\N\O\P\Q\R\S\T\U\V\W\X\Y\Z %% Lower-case \a\b\c\d\e\f\g\h\i\j\k\l\m\n\o\p\q\r\s\t\u\v\w\x\y\z %% Digits \0\1\2\3\4\5\6\7\8\9 %% Exclamation \! Double quote \" Hash (number) \# %% Dollar \$ Percent \% Ampersand \& %% Acute accent \' Left paren \( Right paren \) %% Asterisk \* Plus \+ Comma \, %% Minus \- Point \. Solidus \/ %% Colon \: Semicolon \; Less than \< %% Equals \= Greater than \> Question mark \? %% Commercial at \@ Left bracket \[ Backslash \\ %% Right bracket \] Circumflex \^ Underscore \_ %% Grave accent \` Left brace \{ Vertical bar \| %% Right brace \} Tilde \~} \endinput %% %% End of file `quotchap.sty'.thema1.tex0000755000175000001440000000276410634204406012153 0ustar bleihousers\begin{savequote}[5cm] {\Large Vorname Nachname,\\[0.1cm]Vorname Nachname,\\[0.1cm]Vorname Nachname}\\[0.2cm] email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de \end{savequote} %% ======================================================== \chapter{Thema XY} \minitoc \section{Übersicht} Kleine Beispiele für die Nutzung der Datenbank Operatore: Outer Join (\OuterJoin) und nicht (\NaturalJoin). \annot{Dies ist eine Annotation.} Und das hier \cite{test1} ein Literaturverweis. Namen der Firmengründer, haben Einkaufsplattform erstellt, WebServices, Aufteilung der Arbeiten, Vorkenntnisse in JSP, etc. \section{Beschreibung der Firma XY} Erstellen Sie bitte noch einen ca. 5 seitigen Abschlussbericht über ihr Projekt, in dem Sie dokumentieren... \subsection{Schemaintegration Phase 2} ...auf welche Probleme Sie bei der Integration der drei Schemata in Phase 2 gestossen sind und wie sie diese gelöst haben. \subsection{Integration der Web Services} ...auf welche Probleme Sie bei der Benutzung anderer WebServices in Phase 3 gestossen sind und wie sie diese gelöst haben. \subsection{Besonderheiten} ...was für Besonderheiten ihre erstellten Webseiten und Webservices enthalten und in welchen Punkten sie sich (höchstwahrscheinlich) von anderen unterscheiden. ...auf was sie besonders Wert gelegt haben. \subsection{Lessons learned} ...auf was sie beim nächsten Mal von Anfang an achten werden ;-) \section{Zusammenfasung} naja, alles nochmal in Kurzform halt. thema2.tex0000755000175000001440000000276410200442560012146 0ustar bleihousers\begin{savequote}[5cm] {\Large Vorname Nachname,\\[0.1cm]Vorname Nachname,\\[0.1cm]Vorname Nachname}\\[0.2cm] email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de \end{savequote} %% ======================================================== \chapter{Firma XY} \minitoc \section{Übersicht} Kleine Beispiele für die Nutzung der Datenbank Operatore: Outer Join (\OuterJoin) und nicht (\NaturalJoin). \annot{Dies ist eine Annotation.} Und das hier \cite{test1} ein Literaturverweis. Namen der Firmengründer, haben Einkaufsplattform erstellt, WebServices, Aufteilung der Arbeiten, Vorkenntnisse in JSP, etc. \section{Beschreibung der Firma XY} Erstellen Sie bitte noch einen ca. 5 seitigen Abschlussbericht über ihr Projekt, in dem Sie dokumentieren... \subsection{Schemaintegration Phase 2} ...auf welche Probleme Sie bei der Integration der drei Schemata in Phase 2 gestossen sind und wie sie diese gelöst haben. \subsection{Integration der Web Services} ...auf welche Probleme Sie bei der Benutzung anderer WebServices in Phase 3 gestossen sind und wie sie diese gelöst haben. \subsection{Besonderheiten} ...was für Besonderheiten ihre erstellten Webseiten und Webservices enthalten und in welchen Punkten sie sich (höchstwahrscheinlich) von anderen unterscheiden. ...auf was sie besonders Wert gelegt haben. \subsection{Lessons learned} ...auf was sie beim nächsten Mal von Anfang an achten werden ;-) \section{Zusammenfasung} naja, alles nochmal in Kurzform halt. thema3.tex0000755000175000001440000000276410200442560012147 0ustar bleihousers\begin{savequote}[5cm] {\Large Vorname Nachname,\\[0.1cm]Vorname Nachname,\\[0.1cm]Vorname Nachname}\\[0.2cm] email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de,\\email@informatik.hu-berlin.de \end{savequote} %% ======================================================== \chapter{Firma XY} \minitoc \section{Übersicht} Kleine Beispiele für die Nutzung der Datenbank Operatore: Outer Join (\OuterJoin) und nicht (\NaturalJoin). \annot{Dies ist eine Annotation.} Und das hier \cite{test1} ein Literaturverweis. Namen der Firmengründer, haben Einkaufsplattform erstellt, WebServices, Aufteilung der Arbeiten, Vorkenntnisse in JSP, etc. \section{Beschreibung der Firma XY} Erstellen Sie bitte noch einen ca. 5 seitigen Abschlussbericht über ihr Projekt, in dem Sie dokumentieren... \subsection{Schemaintegration Phase 2} ...auf welche Probleme Sie bei der Integration der drei Schemata in Phase 2 gestossen sind und wie sie diese gelöst haben. \subsection{Integration der Web Services} ...auf welche Probleme Sie bei der Benutzung anderer WebServices in Phase 3 gestossen sind und wie sie diese gelöst haben. \subsection{Besonderheiten} ...was für Besonderheiten ihre erstellten Webseiten und Webservices enthalten und in welchen Punkten sie sich (höchstwahrscheinlich) von anderen unterscheiden. ...auf was sie besonders Wert gelegt haben. \subsection{Lessons learned} ...auf was sie beim nächsten Mal von Anfang an achten werden ;-) \section{Zusammenfasung} naja, alles nochmal in Kurzform halt. titelabstracttoc.tex0000755000175000001440000000316410634204654014347 0ustar bleihousers%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% %% Title, Abstract, TOC %% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{center} \thispagestyle{empty} \vspace{5cm} \textbf{\Huge Abschlußbericht} \vspace{0.2cm} \textbf{\Large Seminar Datenreinigung \\ im Sommersemester 2007} \vspace{0.3cm} \vspace{1.5cm} %\includegraphics[height=3cm]{infologo.jpg} \hspace{1cm} %\includegraphics[height=3cm]{hulogo.pdf} \vspace{2cm} {\small Februar 2005}\\ \vspace{2cm} \textbf{Verantwortlich:} Prof. Felix Naumann\\ \vspace{1cm} \textbf{Lehrstuhl Informationssysteme}\\ Hasso-Plattner-Institut für Softwaresystemtechnik\\ Universität Potsdam\\ Prof.-Dr.-Helmert Str. 2-3\\ 14482 Potsdam \vspace{3cm} {\Large Kurzfassung} \end{center} Datenreinigung bezeichnet sowohl das Erkennen als auch das Korrigieren von Daten, die aus verschiedensten Gründen Fehler aufweisen, und somit geschäftskritische Analysen verfälschen. Typische Fehler sind Rechtschreibfehler, veraltete Daten (Adressen) und mehrfaches Auftreten eines Objekts (eines Kunden). In diesem Seminar werden verschiedene Kernthemen der Datenreinigung sowohl aus Forschungssicht als auch aus Sicht der Industrie behandelt. Dazu gehören z.B. Data Profiling, das automatische Erkennen von Doubletten, oder das Zusammenführen von Doubletten. Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Implementierung bzw. einer Ausarbeitung (themenabhängig) zu einem ausgewählten Thema. %\cleardoublepage \newpage \tableofcontents