ImpressumBuchshopMediatatenHomeSuche
2008-04-09

Audio-Analyse: Wenn Bilder sprechen lernen


[English version available]

War die Audio-Analyse für Überwachungssysteme bisher nur in akademischen und Entwickler-Kreisen ein Thema, wird sie in Großbritannien nun erstmals auch in der Praxis eingesetzt - und zwar sowohl als stand-alone-Lösung wie auch zur Unterstützung von Video-Überwachungsanlagen.

Von Chris Gomersall, London


Audio-Analyse-Systeme wurden unter anderem entwickelt, um die Beschränkungen der aktuellen Videoüberwachungstechnik zu überwinden. Insbesondere bei belebten Szenen sind die Bilder oft recht unscharf und die eigentliche Aktion ist dann nur schwer zu analysieren. So ist es für die Software beispielsweise schwer zu unterscheiden, ob zwei Akteure miteinander ringen oder schlicht ihre Mäntel anziehen. Noch schwieriger ist es, eine freundschaftliche Rangelei von einem echten Kampf zu unterscheiden - zu ähnlich sind hier die Bewegungsabläufe. Diese Beispiele lassen schon erahnen, wie eine zusätzliche Audio-Analyse die rein Video-basierten Systeme unterstützen kann.

Typische Einsatzgebiete

Eine Umgebung in der die Audio-Analyse als Partner der CCTV-Systeme dienen kann, sind beispielsweise Parkhäuser. Hier wird der Kamera-Blick oft von Pfeilern oder niedrigen Decken behindert. Ein zusätzliches Audio-Modul, das etwa auf zerbrechendes Verbundglas reagiert, kann somit eine wichtige Zusatzinformation liefern. Typischerweise würde ein solches System dann folgendermaßen arbeiten: Das Video-System verfolgt ein Auto zunächst anhand der Größe und Form. Dann wird die Geschwindigkeit des Autos zwischen zwei Punkten gemessen, die im Falle eines Diebstahls höher ausfällt als bei einer normalen Ausfahrt, und - als dritter Filter - wird das Geräusch zersplitternden Glases aufgezeichnet. Wird jedes der hier aufgezeichneten Ereignisse als »wahr« bestätigt, wird ein Alarm ausgelöst. Erfahrungsgemäß lässt sich feststellen, dass jede zusätzliche Information die Falschalarm-Quote halbiert.
Auch "Gewalt auf der Straße" wäre ein weiteres Einsatzgebiet. Typischerweise wird ein Kampf gehört, bevor er überhaupt gesehen wird - insgesamt zeigt die Statistik, dass rund 20% aller Verbal-Attacken mit Körperverletzung enden. Hier kann die Auswertung der Audiospur belegen, wer die Streiterei anfing und zusätzlich auch über das Motiv - etwa Rassismus - Auskunft geben. Diese und alle anderen Audio-Beweise brauchen allerdings immer auch einen exakten Zeitstempel.
Überwachungspersonal in Leitstellen weiß auch, dass Kameras
Was wird hier als nächstes passieren? Ohne Audio-Übertragung kann die Überwachungszentrale die Situation noch nicht einschätzen.
selten auf eine Gewaltszene schwenken, bevor die Schlägerei nicht schon in vollem Gange ist. Zeigt die Kamera dann die Szene, liegt einer der Beteiligten oft schon am Boden. Ein Audio-System dagegen arbeitet richtungsunabhängig und liefert so wertvolle Zusatz-Beweise -- selbst wenn das Mikrofon in die falsche Richtung zeigt. Damit ließe sich dann etwa vor Gericht auch im Nachhinein beweisen, welche Version der Kontrahenten zum Tathergang die richtige ist.

Schüsse in den Straßen

Eines der größten Projekte, das bisher abgewickelt wurde, war die Installation eines Audio-Systems in den Straßen von Borough of Hackney, einem der ärmsten Vororte im Osten von London. Nachdem das System eingerichtet wurde, konnten plötzlich auch Schusswechsel geortet werden, die zuvor von der reinen Video-Überwachung nicht auszumachen waren. Grund hierfür ist, dass das Mündungsfeuer einer Waffe nur ungefähr 250 Millisekunden dauert - zu kurz für die meisten Bildanalyse-Systeme.
Diese Fähigkeiten von Audio-Systemen stoßen auch bei der britischen Regierung auf starkes Interesse. So wurde Ipsotek die Zusammenarbeit mit der britischen Spezialeinheit »Operation Trident« -- eine Einheit innerhalb des Metropolitan Police Service zur Bekämpfung von Waffenkriminalität (meist in Zusammenhang mit Drogendelikten) - gewährt. Dadurch konnte die Audio-Bibliothek gerade in diesem Feld um wichtige »Sounds« erweitert werden.

Nah am Ohr

Audio-Systeme sind inzwischen so weit, dass sie
Echte Agression - oder nur Show - die Audio-Anaöyse hilft bei der Bewertung. Photos: Ipsotek
nicht-relevante Signale effektiv herausfiltern können. So können etwa Fahrzeugmotoren, Schritte, das Zuschlagen von Türen oder Sirenengeheul ignoriert werden - gleichzeitig ermöglicht es die Intelligenz der Systeme die für einen Ort besonderen Geräusche während einer Optimierungsphase zu »erlernen«. So gelang es für das Projekt in Hackney das »unsanfte« Auflegen von Holz-Stegen während des Gerüstbaus als Falsch-Alarm auszufiltern - obwohl es in der internen Sound-Bibliothek zunächst einem Schuss aus einer abgesägten Flinte entsprach.
Diese Filter-Methoden sind nur möglich, wenn das Audio-System nahe der Fähigkeiten eines menschlichen Ohrs arbeitet. Die Aufgabe war es also, eine Software zu entwickeln, die aus der Umgebung -- ähnlich den Haarzellen im menschlichen Ohr - nur die benötigten Informationen filtert und analysiert. Etwa so wie ein Geschäftsmann am Telefon, der sich nur auf die Stimme am andere Ende konzentriert, aber gleichzeitig das Rauschen im Telefon, das Surren des PC-Lüfters oder das Geräusch der Klimaanlage ignoriert. Solche Prozesse können in Audio-Systemen mit einer entsprechenden Software beliebig trainiert werden.

Aggression ist nicht gleich Aggression

Feindseligkeit, etwa in der menschlichen Stimme, kann grafisch dargestellt werden - etwa auf einer Skala von 0-100, also zwischen »nicht-feindselig« und der Adrenalin-geschwängerten Atmosphäre kämpfender Personen. Dabei entfaltet sich Aggression immer kontinuierlich und wird nicht einfach ein- oder ausgeschaltet. Ebenso unterschiedlich werden diese Werte allerdings auch in den Kontrollräumen bewertet - ihre Aussagefähigkeit hängt vor allem von dem Umfeld ab, in dem sie aufgezeichnet werden. Bei einer öffentlichen Audio-Überwachung würde für die automatische Auswertung in einem vornehmen Wohnviertel wohl ein Wert von 50 auf der Aggressions-Skala als Alarmschwelle eingestellt werden. Für die Hamburger Reeperbahn oder andere Rotlicht-Bezirke wäre dagegen wohl erst ein Schwellenwert von um die 90 erforderlich. Erprobt wurden die Einsatzmöglichkeiten in zwei Überwachungsprojekten im Norden Englands und in Schottland. In diesen beiden sozialen Brennpunkten wurde der Grenzwert für die Alarmauslösung nur im äußersten oberen Aggressions-Bereich festgelegt. Dennoch: Allein in Schottland löste allein ein Mikrophon drei Alarme innerhalb einer Woche aus - im Schnitt waren es bisher 150 pro Jahr.
Ähnlich können auch Räume überwacht werden. Im Büro eines Bank-Managers könnte eine Aufnahmen eines Mikrofons, bei der nur einer von zwei Anwesenden einen mittleren bis hohen Signal-Level erreicht, mit hoher Wahrscheinlichkeit bedeuten, dass »nur« ein Überziehungskredit abgelehnt wurde. Hierzu ist auch zu sagen, dass es nahezu unmöglich ist, seine Stimme etwa unter Stress-Einfluss zu verstellen. Bei Tests ist es nur einmal gelungen, das System zu überlisten -- einer besonders trainierten Schauspielerin.

Die Installation

Mikrofone sollten bei der öffentlichen Überwachung normalerweise sechs Meter über dem Straßen-Niveau installiert werden. Sie haben dann eine Reichweite von ungefähr zwölf Metern. Dabei ist zu beachten, dass die Aufnahme-Lautstärke sich mit jeder Verdopplung der Distanz halbiert. Die Mikrofone sollten entweder auf Pfosten oder an Gebäuden angebracht werden. Das Audio-Signal selbst wird als mp3-Datei übertragen. Bei der Auswahl der Standorte hat es sich bewährt, auf die Ortskenntnisse von Taxi-Fahrern und auch Ladenbesitzern (Fast-Food-Restaurants) zurückzugreifen. Sie wissen oft am besten, welche Plätze etwa bei Nacht besonders gefährdet sind.

Die Zukunft

Es muss sichergestellt werden, dass alle Audio-Dateien mit nicht-kriminellem Inhalt wieder vernichtet werden. Dennoch gibt es eine Missbrauchsgefahr. Die Technik selbst ist bereit für eine europäische Debatte, wo und wie sie eingesetzt werden sollte. Dazu gibt es allerdings schon die Aussage von dem britischen Datenschutzbeauftragten Jonathan Bamford, dass Audio-Aufnahmen die Privatsphäre weniger verletzen würden als Video-Aufzeichnungen.



Über unseren Autor:
Chris Gomersall ist Chief Executive Officer von Ipsotek in London. Ipsotek ist einer der führenden Anbieter von Audio-Analyse-Systemen und bietet nach eigenen Angaben derzeit als einziger Hersteller die Integration von Audio-Analysen in CCTV-Systemen an.
Kontakt: info@ipsotek.com

Übersetzung: Claus Schaffner

Andere wichtige Links: