빅데이터를 활용한 부산범죄예방시스템

빅데이터를 활용한 부산범죄예방시스템

2013년 더웠던 여름 본의 아니게 멋도 모르고 무모한 도전을 한 정책 연구 논문… 부산광역시에서 발표… 부족함이 많은 내용이지만 다행히 좋은 결과가 있었다. 발표를 한 시청의 김모 공무원님에게 요즈음 이것에 관하여 공공기관 등에서 가끔 문의 전화가 온다고 한다. “혹시 경찰청”에 근무하시냐고?”

Advertisements

서울시 심야버스 노선 최적화 빅데이터 활용사례

ZERONOVA

아마도 국내에서 공공 데이터 활용 분야에서 가장 노력 많이하고 성과를 내고 있는 곳 중에 하나가 서울시청일 것이다. 이미 열린데이터광장을 통해 2-3년 전부터 공공 데이터를 오픈API 형태로 개방하고 있고, 최근에는 서울시 현안 문제를 빅데이터로 해결하려는 시도를 민간기업과 협력하여 수행하고 있다. 그 중에 가시적인 성과를 내고 있는 것이 단연 심야버스 노선 최적화에 빅데이터를 활용한 사례라고 할 수 있다. 심야에 대중교통이 끊어진 상태에서 택시를 잡기위해 고군분투를 해 본 사람이면, 자정부터 새벽 5시까지 운행하는 심야버스에 기대를 걸어봄직하다. 하지만 문제는 내가 승차하고자 하는 곳에 심야버스가 정차하느냐이다. 즉, 좋은 의도에서 시작했지만, 실제 시민들의 활용도가 높지 않다면 무용지물이 되는 것이다.

이것을 결정하는 것이 심야버스 노선 최적화 문제다. 4월19일부터 3개월동안 2개 노선이 시범적으로 운영되고 있고, 이후 6개 노선으로 확대할 계획이다. 자, 여기서 그럼 노선을 어떻게 정할 것이냐는 과제가 있는데, 이는 결국 밤시간대 유동인구가 많은 구간을 묶어서 노선을 만드는 문제로 귀결된다. 그럼 유동인구가 많은 구간을 어떻게 정할 것인가? 큰 고민없이 전형적인 방법으로 접근한다면, 아마도 버스 노선을…

원본 글 보기 442단어 남음

Hadoop: Your Partner in Crime

Hadoop: Your Partner in Crime

August 24th, 2012

Pre-crime? Pretty close…

If you have seen the futuristic movie Minority Report, you most likely have an idea of how many factors and decisions go into crime prevention. Yes, Pre-crime is an aspect of the future but even today it is clear that many social, economic, psychological, racial, and geographical circumstances must be thoroughly considered in order to make crime prediction even partially possible and accurate. The predictive analytics made possible with Apache Hadoop can significantly benefit this area of government security.

The essence of crime prevention is to understand and narrow down thousands of “what if” cases to a manageable and plausible handful of scenarios. Crime can happen anywhere and can be categorized as anything from cyber fraud to kidnapping, which provides a lot of combinations for possible misdemeanors or felonies. With the help of big data analytics, government agencies can zone in on certain areas, demographics, and age groups to pick out specific types of crimes and move towards decreasing the one trillion dollar annual cost of crime in the United States.

Zach Friend, a crime analyst for the Santa Cruz Police Department, explained that there aren’t enough cops on the streets due to insufficient funds. Not only that, but many police departments are still technologically behind in the crime-monitoring field, so big data analytics tools could be a huge step forward for police all over the country. Evidence and information about cases could be stored much more efficiently, police action could be more proactive, and crime awareness could be much more prevalent.

Who’s on the case?

The Crime and Corruption Observatory (created by the European company, FuturICT) is pushing for this kind of development and aims to predict the dynamics of criminal phenomena by running massive data mining and large-scale computer simulations. The Observatory is structured as a network that involves scientists from varying fields – “from cognitive and social science to criminology, from artificial intelligence to complexity science, from statistics to economics and psychology”.

This Observatory will be used through the framework of the developing Living Earth Simulator project – “a big data and supercomputing project that will attempt to uncover the underlying sociological and psychological laws that underpin human civilization.” The project, funded by the European Union, is an impressive advancement in technology, which will not only aid in pin pointing crime but will also effectively utilize the big data of today’s world.

PredPol has made predictive crime analytics available to police departments so that “pre-crime”, in a sense, could be put into action. Zach Friend explains, “We’re facing a situation where we have 30 percent more calls for service but 20 percent less staff than in the year 2000, and that is going to continue to be our reality. So we have to deploy our resources in a more effective way. This model does that.” PredPol allows law enforcement agencies to collect and organize data about crimes that have already happened and to use this data to predict future incidents in certain areas at a radius of 500 square foot blocks. It may not be the same as knowing the exact perpetrator, victim, and cause of the crime ahead of time as was possible in Minority Report but it is an impressive step towards perfecting crime prediction.

The Santa Cruz Police Department, which is using PredPol’s software, has already seen significant improvements in police work. SCPD began by locating areas of possible burglaries, battery, and assault and handing out maps of these areas to officers so they could patrol them. Since then, the department has seen a 19% decrease in these types of crimes.

PredPol software is able to make calculations about crimes based on previous times and locations of other incidents while cross-referencing these with criminal behavior and patterns. Here is an example of how large-scale this could get: George Mohler, a UCLA mathematician who was testing the effectiveness of PredPol, looked at 5,000 crimes which required 5,000! comparisons (i.e. 5,000 x 4,999 x 4,998…). With impressive results already materializing from calculations like these, it is exciting to think how much more accurate predictive crime analytics could become.

Hadoop lays down the law

With Apache Hadoop, perfecting crime prevention becomes an attainable goal. CTOlabs presented some very important points in a recent white paper about big data and law enforcement, showing how Hadoop could be beneficial to smaller police departments that don’t have very much financial leeway. The LAPD for example, is very well-funded and can afford to work with companies such as IBM to develop crime predicting techniques.

Smaller or less advanced departments, however, do not have the financial advantage to use supercomputers or extensive command centers and will use less efficient techniques (such as simple spreadsheets and homegrown databases) to keep track of all of the information involved in law enforcement. “Nationwide, agencies and departments have to reduce their resources and even their manpower but are expected to continue the trend of a decreasing crime rate. To do so requires better service with fewer resources.” Open source presents an extremely effective and less expensive option – Apache Hadoop is the super hero that can save the day, one cluster at a time.

With Hadoop’s capability to store and organize data, police departments can filter through unnecessary information in order to focus on the aspects of crime that are more important. By applying advanced analytics to historical crime patterns, weather trends, traffic sensor data, and a wealth of other sources, police can place patrol cops in areas with higher crime probability instead of evenly distributing man power throughout quiet anddangerous neighborhoods. This conserves money, effort, and time. Hadoop can also help organize a number of other factors such as police back up, calls for service, or screening for biases and confounding variables. Phone calls, videos, historical records, suspect profiles, or any other important information that is necessary for law agencies to keep for a long time can be systematized and referenced whenever need be.

Increasing public safety through effective use of technology is not a panacea but it is here and is an effective tool in combating crime. Apache Hadoop serves as a foundation for this new approach and, most importantly, it is accessible to a wider range of police departments all over the country and the world. Yes, predictive policing and crime prevention still have a lot of room for development and have yet to tackle issues like specific crimes that depend on interpersonal relationships or random events. However, it is all very possible, especially with the use of Hadoop as a predictive analytics platform. Crime can be stopped. No PreCogs necessary.

What is Apache Hadoop?

  • What is Apache Hadoop?
  • Apache Hadoop이란 무엇인가?    

                         

  • Apache Hadoop has been the driving force behind the growth of the big data industry. You’ll hear it mentioned often, along with associated technologies such as Hive and Pig. But what does it do, and why do you need all its strangely-named friends, such as Oozie, Zookeeper and Flume?
  • Apache Hadoop은 빅 데이터 산업 발전의 원동력이 되어왔습니다. Hive나 Pig같은 관련된 기술들에 대해서도 종종 들어보셨을 것입니다. 하지만 이것이 무엇이고, 왜 여러분들은 Oozie나 Zookeeper, Flume처럼 이상한 이름을 가진 것들을 써야 하는 것일까요?
  • Hadoop brings the ability to cheaply process large amounts of data, regardless of its structure. By large, we mean from 10-100 gigabytes and above. How is this different from what went before?
  • Hadoop은 데이터의 구조에 상관없이, 저렴한 비용으로 큰 데이터를 처리할 수 있게 해줍니다. 여기서 우리가 말하는 ‘크다’는 의미는, 10-100 기가바이트, 그 이상을 말합니다. Hadoop을 사용하는 방법은 우리가 전부터 행해오던 방식들과 어떻게 다를까요?
  • Existing enterprise data warehouses and relational databases excel at processing structured data and can store massive amounts of data, though at a cost: This requirement for structure restricts the kinds of data that can be processed, and it imposes an inertia that makes data warehouses unsuited for agile exploration of massive heterogenous data. The amount of effort required to warehouse data often means that valuable data sources in organizations are never mined. This is where Hadoop can make a big difference.
  • 비용의 문제가 있지만, 기존에 존재하는 엔터프라이즈 데이터 웨어하우스와 관계형 데이터베이스는 구조화된 데이터를 처리하는데에 능숙하고, 굉장히 많은 데이터를 저장할 수 있습니다. 구조적인 요구사항이 처리할 수 있는 데이터의 종류를 제한하기 때문이죠. 그리고 이러한 특성은 데이터 웨어하우스가 엄청나게 많은 데이터를 빠르게 탐색하기 힘들게 합니다. 웨어하우스 데이터에 필요로 하는 엄청난 수고는 조직 내의 가치있는 데이터들의 원천이 방치되고 있음을 의미합니다. 이것이야말로 Hadoop이 큰 차이를 만들어낼 수 있는 부분입니다.
  • This article examines the components of the Hadoop ecosystem and explains the functions of each.
  • 이 글은 Hadooop 생태계의 컴포넌트들에 대해 나열하고, 각각의 기능들에 대해 설명하도록 하겠습니다.
  • The core of Hadoop: MapReduce
  • Hadoop의 핵심 : MapReduce
  • Created at Google in response to the problem of creating web search indexes, the MapReduce framework is the powerhouse behind most of today’s big data processing. In addition to Hadoop, you’ll find MapReduce inside MPP and NoSQL databases, such as Vertica or MongoDB.
  • 웹 검색 인덱스를 만드는 것에 대한 문제의 해결책으로 구글이 만들어낸 MapReduce 프레임워크는 오늘날 대부분의 빅 데이터 처리에 대해 매우 확고한 위치를 차지하고 있습니다. Hadoop 외에도, 여러분들은 Vertica나 MongoDB와 같은 MPP나 NoSQL 데이터베이스에서 MapReduce를 만나게 될 것입니다.
  • The important innovation of MapReduce is the ability to take a query over a dataset, divide it, and run it in parallel over multiple nodes. Distributing the computation solves the issue of data too large to fit onto a single machine. Combine this technique with commodity Linux servers and you have a cost-effective alternative to massive computing arrays.
  • MapReduce의 가장 중요한 혁신은 데이터셋을 나누고, 다수의 노드들에 대해 병렬적으로 실행하는 방식으로 통해 질의할 수 있는 능력입니다. 연산을 나누는 것은 하나의 머신에 대하여 지나치게 큰 데이터를 처리하는 것에 대한 문제를 해결해 줍니다. 이러한 기법들과 리눅스 서버들을 조합하여 여러분들은 대규모의 Computing Array들에 대한 비용적으로 효율적인 대안적 솔루션을 가질 수 있습니다.
  • At its core, Hadoop is an open source MapReduce implementation. Funded by Yahoo, it emerged in 2006 and,according to its creator Doug Cutting, reached “web scale” capability in early 2008.
  • Hadoop의 핵심은 오픈 소스 MapReduce 구현체라고 할 수 있습니다. Yahoo가 후원하여 2006년도에 출범하였으며, 창시자 Doug Cutting에 의하면 2008년 초에 “Web Scale” 능력에 도달하였다고 합니다.
  • As the Hadoop project matured, it acquired further components to enhance its usability and functionality. The name “Hadoop” has come to represent this entire ecosystem. There are parallels with the emergence of Linux: The name refers strictly to the Linux kernel, but it has gained acceptance as referring to a complete operating system.
  • Hadoop 프로젝트가 성숙하면서, Hadoop은 Hadoop의 사용성과 기능성을 위한 많은 컴포넌트들을 수용하였고, “Hadoop”이라는 단어는 Hadoop, 그리고 Hadoop과 관련된 다양한 컴포넌트들을 아우르는 전반적인 생태계를 지칭하게 되었습니다. 이것은 Linux의 경우와 비슷합니다. 엄밀히 말하자면 Linux는 Linux Kernel을 지칭하는 것이지만, 결국에 Linux를 하나의 완전한 운영체제로 부르고 있는 것과 같습니다.
  • Hadoop’s lower levels: HDFS and MapReduce
  • Hadoop의 로우 레벨들 : HDFS와 MapReduce
  • Above, we discussed the ability of MapReduce to distribute computation over multiple servers. For that computation to take place, each server must have access to the data. This is the role of HDFS, the Hadoop Distributed File System.
  • 앞에서, 우리는 MapReduce부터 다수의 서버들을 통해 분산 컴퓨팅까지 논했습니다. 컴퓨팅이 일어나기 위해서는 각 서버들은 데이터를 가지고 있어야 합니다. 이것이 바로 HDFS(Hadoop Distributed File System)의 역할입니다.)
  • HDFS and MapReduce are robust. Servers in a Hadoop cluster can fail and not abort the computation process. HDFS ensures data is replicated with redundancy across the cluster. On completion of a calculation, a node will write its results back into HDFS.
  • HDFS와 MapReduce는 견고합니다. Hadoop 클러스터에 존재하는 서버들은 연산에 실패할 수 있고, 연산 과정을 중단할 수 없습니다. HDFS는 데이터가 복제되고 클러스터를 통해 분산될 수 있도록 해줍니다. 연산이 끝나게 되면, 노드는 연산의 결과를 HDFS에 기록합니다.
  • There are no restrictions on the data that HDFS stores. Data may be unstructured and schemaless. By contrast, relational databases require that data be structured and schemas be defined before storing the data. With HDFS, making sense of the data is the responsibility of the developer’s code.
  • HDFS 저장소에는 데이터에 대한 제약이 존재하지 않습니다. 데이터는 구조화되지 않았을 수도 있고, 일정한 스키마가 존재하지 않을 수도 있습니다. 반면에 관계형 데이터베이스의 경우에는 반드시 데이터를 구조화 하여야 하고, 데이터를 저장하기 전에 미리 정의된 스키마들을 가지고 있어야 합니다. HDFS를 이용하면 데이터에 대한 책임은 개발자의 코드가 갖게 됩니다.
  • Programming Hadoop at the MapReduce level is a case of working with the Java APIs, and manually loading data files into HDFS.
  • Mapreduce 레벨에서 Hadoop을 프로그래밍하는 것은 Java API를 통해 작업을 하는 것이라 할 수 있고, HDFS 안으로 데이터를 수동적으로 데이터 파일을 HDFS로 로드해 오는 것이라 할 수 있습니다.
  • Improving programmability: Pig and Hive
  • 프로그래밍능력의 향상 : Pig 와 Hive
  • Working directly with Java APIs can be tedious and error prone. It also restricts usage of Hadoop to Java programmers. Hadoop offers two solutions for making Hadoop programming easier.
  • Java API를 통해 직접 작업하는 것은 다소 지루한 작업이고, 에러가 발생하기 쉽습니다. 또한, 이것은 Java 프로그래머들에게 Hadoop의 사용법을 제한하기도 합니다. Hadoop은 Hadoop 프로그래밍을 보다 쉽게 할 수 있게 도와주는 두가지 솔루션을 제공합니다.
  • Pig is a programming language that simplifies the common tasks of working with Hadoop: loading data, expressing transformations on the data, and storing the final results. Pig’s built-in operations can make sense of semi-structured data, such as log files, and the language is extensible using Java to add support for custom data types and transformations.
  • Pig는 Hadoop의 공통 Task들(데이터를 로드해오거나, 데이터 변환을 표현하는 방법, 마지막 결과를 저장하는 방법 등)을 단순화 시켜놓은 프로그래밍 언어입니다. Pig의 내장 연산들은 마치 로그 파일 같은 반 구조화된 데이터라 할 수 있습니다. 그리고 Pig는 Java를 통해 확장이 가능하고, 커스텀 데이터 타입이나 변환 등을 제공할 수 있습니다.
  • Hive enables Hadoop to operate as a data warehouse. It superimposes structure on data in HDFS and then permits queries over the data using a familiar SQL-like syntax. As with Pig, Hive’s core capabilities are extensible.
  • Hive는 Hadoop을 데이터 웨어하우스처럼 사용할 수 있게 해줍니다. Hive는 HDFS에 있는 데이터를 구조화 시키고, SQL과 유사한 문법으로 데이터를 질의할 수 있도록 해줍니다. Pig처럼 Hive의 핵심 요소들은 확장 가능합니다.
  • Choosing between Hive and Pig can be confusing. Hive is more suitable for data warehousing tasks, with predominantly static structure and the need for frequent analysis. Hive’s closeness to SQL makes it an ideal point of integration between Hadoop and other business intelligence tools.
  • Hive와 Pig 중에 무엇을 선택해야할지 혼란스러울 것입니다. Hive는 데이터 웨어하우징 작업, 정적 데이터, 빈번한 분석이 요구되는 경우에 적합합니다. Hive의 SQL에 가까운 문법은 Hadoop과 다른 비즈니스 도구들과의 통합에 이상적일 것입니다.
  • Pig gives the developer more agility for the exploration of large datasets, allowing the development of succinct scripts for transforming data flows for incorporation into larger applications. Pig is a thinner layer over Hadoop than Hive, and its main advantage is to drastically cut the amount of code needed compared to direct use of Hadoop’s Java APIs. As such, Pig’s intended audience remains primarily the software developer.
  • 보다 큰 어플리케이션들의 결합을 위한 데이터의 변환 과정을 간결한 스크립트로 개발이 가능하게 함으로서 Pig는 개발자들에게 보다 빠르게 많은 데이터 셋을 탐색할 수 있게 해줍니다. Pig는 Hadoop 위에 Hive에 비하여 얇은 레이어를 형성하는데, Pig를 사용함으로서 Hadoop의 Java API를 직접 사용 하여 코드를 작성하는 것보다 더 적은 코드만으로도 동일한 작업을 수행할 수 있게 해줍니다. 따라서, Pig의 주된 사용자는 주로 소프트웨어 개발자가 될 것입니다.
  • Improving data access: HBase, Sqoop and Flume
  • 데이터 접근의 향상 : HBase, Sqoop and Flume
  • At its heart, Hadoop is a batch-oriented system. Data are loaded into HDFS, processed, and then retrieved. This is somewhat of a computing throwback, and often, interactive and random access to data is required.
  • 태생적으로, Hadoop은 Batch 기반 시스템입니다. 데이터들은 HDFS로 로드되어지고, 처리되며, 검색됩니다. 이는 다소 구식의 방식이고, 종종 대화식으로 작업되거나 랜덤 엑세스가 되어야 하기도 합니다.
  • Enter HBase, a column-oriented database that runs on top of HDFS. Modeled after Google’s BigTable, the project’s goal is to host billions of rows of data for rapid access. MapReduce can use HBase as both a source and a destination for its computations, and Hive and Pig can be used in combination with HBase.
  • HBase는 HDFS의 위에서 동작하는 컬럼 기반 데이터베이스입니다. Google의 BigTable이 설계된 후, 프로젝트의 목표는 매우 많은 데이터를 빠른 속도로 접근하는 것이 되었습니다. MapReduce는 HBase를 MapReduce 연산을 시작에서부터 끝까지 사용할 수 있습니다. 그리고, Hive와 Pig는 HBase와 조합하여 사용되어질 수 있습니다.
  • In order to grant random access to the data, HBase does impose a few restrictions: Hive performance with HBase is 4-5 times slower than with plain HDFS, and the maximum amount of data you can store in HBase is approximately a petabyte, versus HDFS’ limit of over 30PB.
  • 데이터에 대한 랜덤 엑세스를 허용하기 위하여, HBase는 몇가지 제약을 가합니다. HBase와 Hive를 같이 사용하는 경우의 퍼포먼스는 일반 HDFS에 비하여 4-5배 느리고, HBase에 저장할 수 있는 최대 데이터는 대략 1 페타바이트 정도 되는 반면, HDFS의 최대 용량은 30페타 바이트입니다.
  • HBase is ill-suited to ad-hoc analytics and more appropriate for integrating big data as part of a larger application. Use cases include logging, counting and storing time-series data.
  • HBase는 ad-hoc 분석에 적합하지 않고, 큰 어플리케이션의 파트로서 빅 데이터를 통합하는데에 더 적합합니다. 주된 유스케이스로는 로깅이나 카운팅, 시간순 데이터를 저장하는 것이 있겠습니다.
  • The Hadoop Bestiary
  • Hadoop의 조각들
  • Ambari Deployment, configuration and monitoring
  • Ambari : 디플로이, 환경설정, 모니터링
  • Flume Collection and import of log and event data
  • Flume : 수집 및 로그/이벤트 데이터 임포트
  • HBase Column-oriented database scaling to billions of rows
  • HBase : 수 억만 로우의 데이터를 스케일링 할 수 있는 컬럼 기반 데이터베이스
  • HCatalog Schema and data type sharing over Pig, Hive and MapReduce
  • HCatalog : Pig와 Hive, MapReduce간의 스키마와 데이터 타입을 공유하게 하는 도구
  • HDFS Distributed redundant file system for Hadoop
  • HDFS : Hadoop을 위한 분산 복제 파일 시스템
  • Hive Data warehouse with SQL-like access
  • Hive : SQL 스타일로 접근할 수 있는 데이터 웨어하우스
  • Mahout Library of machine learning and data mining algorithms
  • Mahout : 머신러닝과 데이터 마이닝 알고리즘 라이브러리
  • MapReduce Parallel computation on server clusters
  • MapReduce : 서버 클러스터 기반의 병렬 컴퓨팅을 위한 솔루션
  • Pig High-level programming language for Hadoop computations
  • Pig : Hadoop 컴퓨팅을 위한 고수준 프로그래밍 언어
  • Oozie Orchestration and workflow management
  • Oozie : 오케스트레이션 및 워크플로우 관리
  • Sqoop Imports data from relational databases
  • Sqoop : 관계형 데이터베이스에서 데이터를 임포트하기 위한 솔루션
  • Whirr Cloud-agnostic deployment of clusters
  • Whirr : 클러스터들의 클라우드 불가지론 배포
  • Zookeeper Configuration management and coordination
  • Zookeeper : 환경설정 관리 및 코디네이션을 위한 솔루션
  • Getting data in and out
  • 데이터를 집어넣고 가져오기
  • Improved interoperability with the rest of the data world is provided by Sqoop and Flume. Sqoop is a tool designed to import data from relational databases into Hadoop, either directly into HDFS or into Hive. Flume is designed to import streaming flows of log data directly into HDFS.
  • Sqoop와 Flume을 통해 수많은 데이터들간의 상호 운용성을 획득할 수 있습니다. Sqoop은 관계형 데이터베이스들의 데이터를 Hadoop으로 가져오기 위해 고안된 도구이고, HDFS나 Hive로 직접 가져오게 할 수도 있습니다. Flume은 HDFS로 직접 로그 데이터들을 스트리밍할 수 있게 고안된 도구입니다.
  • Hive’s SQL friendliness means that it can be used as a point of integration with the vast universe of database tools capable of making connections via JBDC or ODBC database drivers.
  • Hive의 유사 SQL은 Hive가 다양한 데이터베이스 도구들의 통합에 사용될 수 있고, JDBC나 ODBC 데이터베이스 드라이버를 통해 커넥션을 만들 수 있음을 의미합니다.
  • Coordination and workflow: Zookeeper and Oozie
  • 협동과 작업흐름 : Zookeeper와 Oozie
  • With a growing family of services running as part of a Hadoop cluster, there’s a need for coordination and naming services. As computing nodes can come and go, members of the cluster need to synchronize with each other, know where to access services, and know how they should be configured. This is the purpose ofZookeeper.
  • Hadoop 클러스터의 부분으로서 실행중인 서비스들이 많아지면, 코디네이션과 네이밍 서비스가 필요해질 것입니다. 컴퓨팅 노드가 들어오고 나가면서, 클러스터의 멤버들간에 동기화가 이루어질 필요가 생길 것이고, 어느 서비스로 접근해야 할 것인지 알아야 할 것이며, 어떻게 조정하게 될 것인지에 대해서도 알아야 할 것입니다. 이것이 Zookeeper의 임무입니다.
  • Production systems utilizing Hadoop can often contain complex pipelines of transformations, each with dependencies on each other. For example, the arrival of a new batch of data will trigger an import, which must then trigger recalculations in dependent datasets. TheOozie component provides features to manage the workflow and dependencies, removing the need for developers to code custom solutions.
  • Hadoop을 설정하는 생산 시스템은 종종 상호간에 의존성을 갖는 복잡한 변환 처리들을 위한 파이라인을 포함합니다. 이를테면 새로운 데이터 배치 작업은 데이터 임포트를 실행하게 하고, 임포트 작업은 의존되는 데이터셋을 다시 연산해야 하는 식으로 말입니다. Oozie 컴포넌트는 워크플로우와 의존성을 관리하는 기능을 제공하고, 개발자로 하여금 커스텀 솔루션 코드를 수정해야하는 필요를 줄여줍니다.
  • Management and deployment: Ambari and Whirr
  • 관리와 배포 : Ambari 와 Whirr
  • One of the commonly added features incorporated into Hadoop by distributors such as IBM and Microsoft is monitoring and administration. Though in an early stage, Ambari aims to add these features to the core Hadoop project. Ambari is intended to help system administrators deploy and configure Hadoop, upgrade clusters, and monitor services. Through an API, it may be integrated with other system management tools.
  • IBM과 Microsoft 같은 기업들이 추가한 기능들은 보통 모니터링이나 관리 도구입니다. 초기에는 Ambari는 이러한 특징들을 Hadoop의 핵심 프로젝트로 포함하는데에 집중했었습니다. Ambari는 Hadoop을 설정하고, 배포하고, 클러스터를 업그레이드하거나, 모니터 서비스를 제공하여 시스템 관리자에게 도움이 될 수 있는 시스템으로 만드는 것을 목표로 하였습니다. 이것들은 API를 통해서 다른 시스템 관리 도구들과 합쳐질 수 있을 것입니다.
  • Though not strictly part of Hadoop, Whirr is a highly complementary component. It offers a way of running services, including Hadoop, on cloud platforms. Whirr is cloud neutral and currently supports the Amazon EC2 and Rackspace services.
  • 비록 Hadoop의 어느 파트로 정해진 것은 아니지만, Whirr은 매우 상호 보완적인 컴포넌트입니다. Whirr은 클라우드 시스템에서 Hadoop을 포함하여 서비스들을 실행하는 방법을 제공합니다. Whirr은 클라우드에 특화되어 있고, 현재 Amazon EC2와 Rackspace 서비스를 지원하고 있습니다.
  • Machine learning: Mahout
  • 기계 학습 : Mahout
  • Every organization’s data are diverse and particular to their needs. However, there is much less diversity in the kinds of analyses performed on that data. The Mahout project is a library of Hadoop implementations of common analytical computations. Use cases include user collaborative filtering, user recommendations, clustering and classification.
  • 모든 조직의 데이터는 다양하고 그들만의 수요에 특화되어 있습니다. 그러나 데이터를 분석하는데에 있어서는 그다지 다양한 종류의 데이터가 필요하지는 않습니다. Mahout 프로젝트는 일반적인 분석적 컴퓨팅에 관한 Hadoop의 구현체입니다. 주된 유스케이스는 사용자간의 필터링이나 사용자 추천, 클러스터링, 분류 등이 있습니다.
  • Using Hadoop
  • Hadoop의 사용
  • Normally, you will use Hadoop in the form of a distribution. Much as with Linux before it, vendors integrate and test the components of the Apache Hadoop ecosystem and add in tools and administrative features of their own.
  • 일반적으로 여러분들을 Hadoop을 분산된 형태로 사용하고자 할 것입니다. Linux가 그러했던 것처럼, 수많은 벤더들이 Apache Hadoop 생태계의 컴포넌트들을 통합하고 테스트할 것입니다. 그리고 그들 나름대로의 도구나 관리 정책을 만들어낼 것입니다.
  • Though not per se a distribution, a managed cloud installation of Hadoop’s MapReduce is also available through Amazon’s Elastic MapReduce service.
  • 비록 Hadoop이 하나의 정형화된 배포판으로 제공되어지고 있지 않지만, 클라우드로 관리되는 설치 방법으로는 Hadoop의 MapReduce는 Amazon의 Elastic MapReduce 서비스를 통해 제공되어지고 있습니다.

[지금 논쟁 중]범죄지도 공개

안전행정부가 올해 청와대 업무보고에서 범죄·사고 다발 지역을 표기한 ‘국민생활안전지도’(안전지도)를 제작해 국민에게 제공하겠다고 밝혔다. 범죄·사고 다발 지역을 국민들이 손쉽게 파악해 이를 예방하는 데 도움이 될 것이라는 전망이 나오고 있다. 하지만 지역별 격차가 고스란히 드러나 위화감 조성, 부동산가격 하락 등 부작용이 우려된다는 여론도 만만치 않다. 안전행정부 여운광 국립 재난안전연구원장과 참여연대 장정욱 시민감시2팀장이 이에 대한 의견을 내놓았다.

■ 지역안전 지키기 자발적 참여 취지… 범죄율 낮아질 것

이번 박근혜 정부에서는 국민의 안전 없이 국민의 행복이 있을 수 없다고 천명한 바 있으며, 이에 따라 안전행정부에서는 무엇보다 국민의 안전을 최우선 순위로 두고 각종 정책을 추진하고 있다.

그중의 하나가 “생활안전지도”의 도입이다. 생활안전지도는 국민생활 전반의 위험요인, 즉 교통사고, 학교폭력, 성폭력 등 각종 사고와 범죄 정보를 지도 형태로 제작해 인터넷 등을 통해 공개함으로써 재난·안전사고를 사전에 예방하자는 취지이다. 지도는 교통사고 등 안전사고가 잦은 곳, 학교폭력·성폭력 등 범죄 다발 지역, 침수·붕괴 등 상습적으로 재난이 발생하는 구역 등에 관한 정보를 종합적으로 제공하게 되며, 지역사회와 자치단체가 이러한 정보를 토대로 지역안전 확보에 자발적으로 참여토록 하고자 하는 것이다.

미국 샌프란시스코의 경우 이미 수년 전부터 범죄발생지도를 구축하여 범죄발생률을 획기적으로 줄인 성공사례로 알려져 있다. 지난 8년간 범죄가 발생했던 지역과 유형을 세밀하게 분석하여 후속 범죄 가능성을 예측, 사전예보까지 인터넷을 통해 국민에게 공개하고 있다.

일본은 2003년 도쿄 경시청에서부터 시작해 다른 여러 지역에서도 홈페이지를 통해 온라인 범죄지도를 공개하여 서비스하고 있고, 영국 런던 경찰국은 주민들이 거주지역별 최신범죄 정보, 범죄유형, 범죄율 등을 검색할 수 있는 온라인범죄지도 서비스를 전국으로 확대하여, 2008년부터는 홈페이지를 통해 범죄지도를 전면 제공하고 있다.

이와 같은 사례에서 보는 바와 같이 시범적으로 도입, 운영되던 범죄지도의 공개제도가 점차적으로 확대되었다는 점은 역기능보다는 안전확보라는 순기능에 대한 주민적 기대가 더 크게 작용했다는 것을 방증하는 사실이기도 하다.

생활안전지도를 도입하게 되면, 특정 지역의 부정적인 이미지화로 인하여 발생하는 위화감이나 주민반발 문제, 피해자의 사생활이나 개인정보 침해 등 각종 인권침해 문제, 지역 간의 갈등 유발이나 집값 하락, 지방자치단체장의 정치적 반대를 유발할 수 있다는 의견도 만만치 않다.

이에 안전행정부에서는 생활안전지도를 도입하는 과정에서 예상되는 문제점과 쟁점을 사전에 예측하고, 각 분야 전문가들의 자문 등을 토대로 심층 검토와 사회적 합의를 통해 부작용을 최소화하는 노력을 기울여 나갈 계획이다.

국민생활안전지도의 기본 틀이 정립되고 나면 향후에는 공공참여형 커뮤니티 맵핑(community mapping) 개념을 반영하는 방향으로 나아가야 한다고 생각한다. 잦은 교통사고 유발 지점은 어디인지, 범죄로 이용되는 폐가·사각지대는 어디인지, 귀갓길에 가로등이 없어 불안감과 두려움이 높아지는 길목은 어디인지, 학생들 입장에서 폭력을 당하고 돈을 빼기는 지역 등을 지역주민이 직접 스마트폰 앱 등을 통해 지도정보의 생성에 참여하게 하고, 이와 같이 만들어진 지도정보를 활용하여 지역안전 확보를 위한 대안 마련 등에도 주민 스스로 참여할 수 있도록 한다는 개념이다.

실제로 국민 스스로 자기가 주로 생활하는 지역에서 안전을 위협하는 요인을 발견하여 해소책을 제안하고, 개선함으로써 이웃주민의 안전에 기여하게 된다면 본인의 체감 안전도는 훨씬 상승하게 될 것이고 이것이궁극적으로는 주민이 함께하는 안전 복지의 일환이 될 수 있을 것이다.

그동안 우리나라는 사회의 효율성을 강조하여 사회 안전망 구축에 대해서는 소홀한 측면이 없지 않았다고 생각된다. 사회 각 분야에 대해 효율과 안전에 대해 다시 한번 신중한 논의와 사회적 합의가 필요한 시점이다.

이러한 과정에서 반드시 고려해야 하는 것은 국민의 생명과 재산을 안전하게 지키는 것이 복지의 기초이자 국민행복의 기본 조건이라는 것이다. 안전하지 않는 나라에 행복한 국민은 없기 때문이다. 사랑하는 가족을 범죄와 각종 위험으로부터 지키고 삶의 질을 한 차원 높이기 위한 “생활안전지도”의 구축이 바로 우리나라가 안전 대한민국(Safety Korea)으로 널리 불리는 시발점이 될 것으로 확신한다.

■ 특정지역 ‘치안 불안’ 낙인 우려… 범죄율 감소할지 의문

정부가 국민이 정보공개를 청구하기에 앞서 국민생활과 관련한 내용을 미리 공개하겠다는 것은 환영할 만한 일이다. 안전행정부에서 말한 것처럼 국민생활에 필요한 정보가 부처별로 있으니 모아서 한꺼번에 공개하면 효과적인 정보가 될 것이다. 그런데 이 같은 정책에 대해 환영하는 사람들도 있지만 반대하는 사람들도 있다. 이제까지 폐쇄적인 정보공개로 비판받던 정부가 국민에게 더 많은 정보를 스스로 공개하겠다는데 왜 반대할까.

반대하는 사람들은 범죄정보를 지도로 보여줬을 때 특정지역에 대한 낙인효과가 있을 수 있다고 지적한다. 해당 지역이 슬럼화될 가능성도 있다. 또 범죄지도를 만드는 방식에 따라 피해자의 정보가 공개될 가능성도 있다.

치안불안지역에서는 지역 간 갈등, 학교의 학생 유치가 어려워지는 문제와 집값 하락의 가능성도 반대 이유로 뽑고 있다. 물론 찬성 의견도 있다. 정책에 찬반 여론이 있고 주장이 합리적이라면 정책의 실효성보다 부작용이 더 크지는 않은지 잘 살펴봐야 한다.

정부는 범죄지도 제작의 성공적인 외국 사례로 미국 샌프란시스코를 소개했다. 샌프란시스코의 경우, 과거 8년간 범죄가 발생했던 지역과 유형을 분석해 범죄 가능성을 예보하는 범죄지도를 제작해 테스트한 결과, 범죄 예보 정확도가 71%에 달하는 성과가 있었다고 한다.

그런데 좀 이상하다. 범죄지도를 만드는 이유는 범죄를 막기 위한 것이다. 예상되는 범죄를 막았어야 성과라고 할 수 있다. 예상되는 범죄가 71%나 일어난 것이 왜 성과인지 쉽사리 이해가 되지 않는다.

범죄를 연구하는 학자나 경찰 당국에는 성과일 수 있겠으나 국민들에게는 의미 있는 성과로 보기 어렵다. 또 정부는 예상되는 범죄율 감소치도 발표하지 않았다. 심리적인 효과는 있겠지만 섣불리 범죄 감소를 예상하기는 어려운 모양이다. 물론 지금이라도 구체적인 목표를 제시할 수 있을 것이다.

또 샌프란시스코의 범죄율이 낮아졌다는 통계도 금방 제시할 수 있을 것이다. 실제로 샌프란시스코의 범죄는 줄어들었다. 미국의 도시정보를 제공하는 http://www.Cityrating.com에 따르면 샌프란시스코는 2006년 이후 재산범죄와 폭력범죄율 두 가지가 모두 감소했다. 그럼 이것이 범죄지도에 의한 것일까. 그렇게 보기는 어려울 것 같다.

앞선 자료에 따르면 미국 전역에서 범죄율이 감소하고 있다. 샌프란시스코가 속한 캘리포니아주의 범죄율도 물론 감소하고 있다. 감소하고 있기는 하지만 샌프란시스코의 범죄율 자체는 미국 평균이나 캘리포니아 평균에 비해서 높다. 정부에서 뽑은 성공사례인 샌프란시스코의 범죄지도가 성공적이라고 하기에는 근거가 빈약하다.

다음으로 범죄지도에 대한 우려를 살펴보자. 우선 범죄가 많은 곳으로 뽑힌 지역의 주민에 대한 부정적인 선입견이 있을 수 있다. 학교폭력이 많은 것으로 파악된 학교 출신에 대한 선입견도 있을 수 있다.

또 자신이 살고 있는 지역이나 사업장이 있는 지역이 범죄율이 높은 지역으로 확인된 경우 무엇을 할 수 있을까. 부자들이나 사회적 지위가 높은 사람들은 이사를 가거나 사업장의 장소를 옮기겠지만 대다수의 사람들은 쉽게 이사나 직장을 옮기기 어려울 것이다. 소극적인 대처로 문단속을 강화하거나 귀가시간을 조절할 수는 있을 것이다.

그러나 범죄율을 낮추기 위해 시민이 할 수 있는 일은 사실 별로 없다. 위험지역으로 뽑힌 곳은 치안공백 상태로 이해되어 오히려 더 많은 범죄를 불러올 수도 있다. 결국 이사 갈 수 있는 사람은 이사를 가면 되겠지만 남아야 되는 사람이 있고, 다른 사회적 조건들로 인해 그곳으로 유입되는 인구도 있을 수밖에 없다.

결국은 사회적 약자가 위험한 지역에 살도록 강제당할 가능성이 높다. 범죄지도의 작성과 공개로 범죄율을 낮추는 효과가 있을지도 의문이지만 만약 효과가 있더라도 부작용이 심각하다면 도입하지 말아야 할 것이다. 더구나 새로운 정책이 결과적으로 사회적 약자의 피해가 커지는 방향으로 정해져서는 안될 것이다.

안전행정부는 안전에 대한 지역 주민의 관심이 높아지고 자연스러운 지역 간 비교로 안전 확보 노력이 강화될 것으로 기대했지만, 그것은 동시에 불안감이 커지고, 지역 간 갈등이 유발될 수 있다는 뜻이기도 하다.

정부가 일부러 위험을 강조하고, 국민의 불안감을 통해 경찰권을 비롯한 공권력의 확대를 꾀하려는 것이 아니라면 부작용에 대한 충분한 검토가 선행되어야 할 것이다. 우리 사회에 범죄지도 도입 논의가 시작된 지는 벌써 상당 기간 되었지만 아직 충분히 검토된 것으로 보이지는 않는다. 앞서 말한 샌프란시스코 사례도 찬성을 위해 검토를 하다보니 실제와 맞지 않는 주장을 한 것으로 보인다.

도입을 추진하는 정부는 효과만을 주장할 것이 아니라 반대 주장에 대해 충분히 검토해야 한다. 그것이 정부의 역할이다. 국민의 안전과 생활을 책임지는 정부라면 반대 주장에 대해서 “범죄율 낮추기에 협조해야지 집값이 내려갈까 걱정해서 되겠느냐”는 식으로 대처해서는 안될 것이다. 정부는 생활안전지도 도입을 서두를 것이 아니라 부작용을 어떻게 극복하고 해소할 수 있을 것인지 충분히 분석하고 시행 여부를 판단해야 한다. 충분한 검토 끝에 시행하더라도 교통사고지도와 같은 사고예방효과가 높을 것으로 예상되나 부작용이 상대적으로 적은 자료가 무엇인지 선별하는 노력도 있어야 한다.