-
Notifications
You must be signed in to change notification settings - Fork 24
#1 Memory Optimization #5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: master
Are you sure you want to change the base?
Changes from all commits
784fa21
dcd8bbb
b1f6ffb
bdf8fd8
8a3bee8
44adb35
e9094ea
a9a4622
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,80 @@ | ||
| # Case-study оптимизации | ||
|
|
||
| ## Актуальная проблема | ||
| В нашем проекте возникла серьёзная проблема. | ||
|
|
||
| Необходимо было обработать файл с данными, чуть больше ста мегабайт. | ||
|
|
||
| У нас уже была программа на `ruby`, которая умела делать нужную обработку. | ||
|
|
||
| Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время. | ||
|
|
||
| Я решил исправить эту проблему, оптимизировав эту программу. | ||
|
|
||
| ## Формирование метрики | ||
| Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику: *Объем памяти выделенной процессу* | ||
|
|
||
| ## Гарантия корректности работы оптимизированной программы | ||
| Программа поставлялась с тестом. Выполнение этого теста позволяет не допустить изменения логики программы при оптимизации. | ||
|
|
||
| ## Feedback-Loop | ||
| Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за *~ 5 сек.* | ||
|
|
||
| Вот как я построил `feedback_loop`: | ||
|
|
||
| Разбил файл с данными на три файла с 10К, 100K, 1M записей. | ||
| Вынес тест в отдельный файл | ||
| Написал бенчмарк | ||
|
|
||
| Проверял на 10к, программа выполнилась за 3,75 сек, размер 587 МБ | ||
|
|
||
| ## Вникаем в детали системы, чтобы найти 20% точек роста | ||
| Для того, чтобы найти "точки роста" для оптимизации я воспользовался *memory_profiler и ruby-prof* | ||
|
|
||
| Вот какие проблемы удалось найти и решить | ||
|
|
||
| ### 1. Конкатенация sessions | ||
| Использовал memory_profiler | ||
| Операция конкатенации сессий sessions += [parse_session(line)] if cols[0] == 'session' | ||
| аллоцировала память 287 МБ | ||
|
|
||
| После оптимизации размер аллоцируемой памяти сократился до 293 кб | ||
| Программа стала вполняться за 4.11 сек общий размер памяти сократился до 494 МБ | ||
|
|
||
| ### 2. Выборка из массива сессий пользователя методом select | ||
| Использовал memory_profiler | ||
| Операция выборки сессий пользователя занимала ~ 266 МБ | ||
| После оптимизации размер сократился до 1,5 кб | ||
|
Owner
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
|
||
| Общий размер занимаемой памяти сократился до 242 МБ, время работы программы сократилось до 2 сек. | ||
|
|
||
| ### 3. collect_stats_from_users | ||
| Использовал ruby-prof | ||
| Медленный сбор статистики пользователя | ||
| После оптимизации программа выполняется за 1,45 сек, размер занимаемой памяти уменьшился до 207 МБ | ||
|
|
||
| ### 4. Date.parse в сортировке | ||
| Использовал ruby-prof | ||
| 'dates' => user.sessions.map { |s| s['date'] }.map { |d| Date.iso8601(d) }.sort.reverse | ||
|
Owner
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
| После оптимизации размер уменьшился до 7,5 МБ | ||
| Программа стала выполняться за 1,35 сек, размер 185 МБ | ||
|
|
||
| ### 5. Запись отчета | ||
| Использовал ruby-prof | ||
| File.write('result.json', "#{report.to_json}\n") | ||
| После оптимизации размер сократился с 3 МБ до 2,5 МБ | ||
| Время выполнения составило 1,29 сек, размер уменьшился 183 МБ | ||
|
|
||
| ### 6. Рефакторинг | ||
| После рефакторинга время выполнения составило 1,2 сек, | ||
| Размер памяти сократился до 179 МБ | ||
|
|
||
| ## Результаты | ||
| В результате проделанной оптимизации наконец удалось обработать файл с данными. | ||
| Удалось улучшить метрику системы с *587 МБ до 179 МБ* | ||
| Время выполнения программы с тестовыми данными составило 1,2 сек. | ||
| Время работы программы с реальными данными составило 69,6 сек | ||
|
Owner
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
|
|
||
| В топе проблем остались операции чтения/записи файла на диск, построчное чтение метрику не улучшило | ||
|
|
||
| ## Защита от регресса производительности | ||
| Для защиты от потери достигнутого прогресса при дальнейших изменениях программы написан performance тест | ||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1 @@ | ||
| {"totalUsers":3,"uniqueBrowsersCount":14,"totalSessions":15,"allBrowsers":"CHROME 13,CHROME 20,CHROME 35,CHROME 6,FIREFOX 12,FIREFOX 32,FIREFOX 47,INTERNET EXPLORER 10,INTERNET EXPLORER 28,INTERNET EXPLORER 35,SAFARI 17,SAFARI 29,SAFARI 39,SAFARI 49","usersStats":{"Leida Cira":{"sessionsCount":6,"totalTime":"455 min.","longestSession":"118 min.","browsers":"FIREFOX 12, INTERNET EXPLORER 28, INTERNET EXPLORER 28, INTERNET EXPLORER 35, SAFARI 29, SAFARI 39","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-09-27","2017-03-28","2017-02-27","2016-10-23","2016-09-15","2016-09-01"]},"Palmer Katrina":{"sessionsCount":5,"totalTime":"218 min.","longestSession":"116 min.","browsers":"CHROME 13, CHROME 6, FIREFOX 32, INTERNET EXPLORER 10, SAFARI 17","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-04-29","2016-12-28","2016-12-20","2016-11-11","2016-10-21"]},"Gregory Santos":{"sessionsCount":4,"totalTime":"192 min.","longestSession":"85 min.","browsers":"CHROME 20, CHROME 35, FIREFOX 47, SAFARI 49","usedIE":false,"alwaysUsedChrome":false,"dates":["2018-09-21","2018-02-02","2017-05-22","2016-11-25"]}}} |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -1,58 +1,74 @@ | ||
| # Deoptimized version of homework task | ||
| # frozen_string_literal: true | ||
|
Owner
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
|
|
||
| require 'json' | ||
| require 'pry' | ||
| require 'date' | ||
| require 'minitest/autorun' | ||
|
|
||
| class User | ||
| attr_reader :attributes, :sessions | ||
| attr_reader :attributes, :sessions, :browsers, :time | ||
|
|
||
| def initialize(attributes:, sessions:) | ||
| @attributes = attributes | ||
| @sessions = sessions | ||
| @browsers = sessions.map { |s| s[:browser] }.map!(&:upcase).sort! | ||
| @time = sessions.map { |s| s[:time] }.map!(&:to_i) | ||
| end | ||
|
|
||
| def stats | ||
| { | ||
| sessionsCount: sessions.count, | ||
| totalTime: "#{time.sum} min.", | ||
| longestSession: "#{time.max} min.", | ||
| browsers: browsers.join(', '), | ||
| usedIE: browsers.any? { |b| b =~ /INTERNET EXPLORER/ }, | ||
| alwaysUsedChrome: browsers.uniq.all? { |b| b =~ /CHROME/ }, | ||
| dates: sessions.map { |s| s[:date] }.map! { |d| Date.iso8601(d) }.sort! { |x, y| y <=> x } | ||
| } | ||
| end | ||
| end | ||
|
|
||
| def parse_user(user) | ||
| fields = user.split(',') | ||
| parsed_result = { | ||
| 'id' => fields[1], | ||
| 'first_name' => fields[2], | ||
| 'last_name' => fields[3], | ||
| 'age' => fields[4], | ||
| { | ||
| id: user[1], | ||
| first_name: user[2], | ||
| last_name: user[3], | ||
| age: user[4] | ||
| } | ||
| end | ||
|
|
||
| def parse_session(session) | ||
| fields = session.split(',') | ||
| parsed_result = { | ||
| 'user_id' => fields[1], | ||
| 'session_id' => fields[2], | ||
| 'browser' => fields[3], | ||
| 'time' => fields[4], | ||
| 'date' => fields[5], | ||
| { | ||
| user_id: session[1], | ||
| session_id: session[2], | ||
| browser: session[3], | ||
| time: session[4], | ||
| date: session[5] | ||
| } | ||
| end | ||
|
|
||
| def collect_stats_from_users(report, users_objects, &block) | ||
| def collect_stats_from_users(report, users_objects) | ||
| users_objects.each do |user| | ||
| user_key = "#{user.attributes['first_name']}" + ' ' + "#{user.attributes['last_name']}" | ||
| user_key = "#{user.attributes[:first_name]} #{user.attributes[:last_name]}" | ||
| report['usersStats'][user_key] ||= {} | ||
| report['usersStats'][user_key] = report['usersStats'][user_key].merge(block.call(user)) | ||
| report['usersStats'][user_key] = user.stats | ||
| end | ||
| end | ||
|
|
||
| def work | ||
| file_lines = File.read('data.txt').split("\n") | ||
| def work(file_name) | ||
| file_lines = File.read(file_name).split("\n") | ||
|
|
||
| users = [] | ||
| sessions = [] | ||
| users = {} | ||
| sessions = {} | ||
|
|
||
| file_lines.each do |line| | ||
| cols = line.split(',') | ||
| users = users + [parse_user(line)] if cols[0] == 'user' | ||
| sessions = sessions + [parse_session(line)] if cols[0] == 'session' | ||
| users[cols[1]] = parse_user(cols) if cols[0] == 'user' | ||
|
|
||
| next unless cols[0] == 'session' | ||
|
|
||
| id = cols[1] | ||
| sessions[id] ||= [] | ||
| sessions[id] << parse_session(cols) | ||
| end | ||
|
|
||
| # Отчёт в json | ||
|
|
@@ -70,107 +86,27 @@ def work | |
| # - Всегда использовал только Хром? + | ||
| # - даты сессий в порядке убывания через запятую + | ||
|
|
||
| report = {} | ||
|
|
||
| report[:totalUsers] = users.count | ||
| all_sessions = sessions.values.flatten | ||
|
|
||
| # Подсчёт количества уникальных браузеров | ||
| uniqueBrowsers = [] | ||
| sessions.each do |session| | ||
| browser = session['browser'] | ||
| uniqueBrowsers += [browser] if uniqueBrowsers.all? { |b| b != browser } | ||
| end | ||
|
|
||
| report['uniqueBrowsersCount'] = uniqueBrowsers.count | ||
|
|
||
| report['totalSessions'] = sessions.count | ||
|
|
||
| report['allBrowsers'] = | ||
| sessions | ||
| .map { |s| s['browser'] } | ||
| .map { |b| b.upcase } | ||
| .sort | ||
| .uniq | ||
| .join(',') | ||
|
|
||
| # Статистика по пользователям | ||
| users_objects = [] | ||
|
|
||
| users.each do |user| | ||
| attributes = user | ||
| user_sessions = sessions.select { |session| session['user_id'] == user['id'] } | ||
| user_object = User.new(attributes: attributes, sessions: user_sessions) | ||
| users_objects = users_objects + [user_object] | ||
| end | ||
| unique_browsers = all_sessions.map { |s| s[:browser] }.uniq! | ||
|
|
||
| report = {} | ||
| report['totalUsers'] = users.keys.count | ||
| report['uniqueBrowsersCount'] = unique_browsers.count | ||
| report['totalSessions'] = all_sessions.count | ||
| report['allBrowsers'] = unique_browsers.map!(&:upcase).sort!.join(',') | ||
| report['usersStats'] = {} | ||
|
|
||
| # Собираем количество сессий по пользователям | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'sessionsCount' => user.sessions.count } | ||
| end | ||
|
|
||
| # Собираем количество времени по пользователям | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'totalTime' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.sum.to_s + ' min.' } | ||
| end | ||
|
|
||
| # Выбираем самую длинную сессию пользователя | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'longestSession' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.max.to_s + ' min.' } | ||
| end | ||
|
|
||
| # Браузеры пользователя через запятую | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'browsers' => user.sessions.map {|s| s['browser']}.map {|b| b.upcase}.sort.join(', ') } | ||
| end | ||
|
|
||
| # Хоть раз использовал IE? | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'usedIE' => user.sessions.map{|s| s['browser']}.any? { |b| b.upcase =~ /INTERNET EXPLORER/ } } | ||
| end | ||
|
|
||
| # Всегда использовал только Chrome? | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'alwaysUsedChrome' => user.sessions.map{|s| s['browser']}.all? { |b| b.upcase =~ /CHROME/ } } | ||
| end | ||
|
|
||
| # Даты сессий через запятую в обратном порядке в формате iso8601 | ||
| collect_stats_from_users(report, users_objects) do |user| | ||
| { 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } } | ||
| # Статистика по пользователям | ||
| users_objects = users.each.with_object([]) do |(user_id, attrs), arr| | ||
| arr << User.new(attributes: attrs, sessions: sessions[user_id]) | ||
| end | ||
|
|
||
| File.write('result.json', "#{report.to_json}\n") | ||
| end | ||
|
|
||
| class TestMe < Minitest::Test | ||
| def setup | ||
| File.write('result.json', '') | ||
| File.write('data.txt', | ||
| 'user,0,Leida,Cira,0 | ||
| session,0,0,Safari 29,87,2016-10-23 | ||
| session,0,1,Firefox 12,118,2017-02-27 | ||
| session,0,2,Internet Explorer 28,31,2017-03-28 | ||
| session,0,3,Internet Explorer 28,109,2016-09-15 | ||
| session,0,4,Safari 39,104,2017-09-27 | ||
| session,0,5,Internet Explorer 35,6,2016-09-01 | ||
| user,1,Palmer,Katrina,65 | ||
| session,1,0,Safari 17,12,2016-10-21 | ||
| session,1,1,Firefox 32,3,2016-12-20 | ||
| session,1,2,Chrome 6,59,2016-11-11 | ||
| session,1,3,Internet Explorer 10,28,2017-04-29 | ||
| session,1,4,Chrome 13,116,2016-12-28 | ||
| user,2,Gregory,Santos,86 | ||
| session,2,0,Chrome 35,6,2018-09-21 | ||
| session,2,1,Safari 49,85,2017-05-22 | ||
| session,2,2,Firefox 47,17,2018-02-02 | ||
| session,2,3,Chrome 20,84,2016-11-25 | ||
| ') | ||
| end | ||
| collect_stats_from_users(report, users_objects) | ||
|
|
||
| def test_result | ||
| work | ||
| expected_result = '{"totalUsers":3,"uniqueBrowsersCount":14,"totalSessions":15,"allBrowsers":"CHROME 13,CHROME 20,CHROME 35,CHROME 6,FIREFOX 12,FIREFOX 32,FIREFOX 47,INTERNET EXPLORER 10,INTERNET EXPLORER 28,INTERNET EXPLORER 35,SAFARI 17,SAFARI 29,SAFARI 39,SAFARI 49","usersStats":{"Leida Cira":{"sessionsCount":6,"totalTime":"455 min.","longestSession":"118 min.","browsers":"FIREFOX 12, INTERNET EXPLORER 28, INTERNET EXPLORER 28, INTERNET EXPLORER 35, SAFARI 29, SAFARI 39","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-09-27","2017-03-28","2017-02-27","2016-10-23","2016-09-15","2016-09-01"]},"Palmer Katrina":{"sessionsCount":5,"totalTime":"218 min.","longestSession":"116 min.","browsers":"CHROME 13, CHROME 6, FIREFOX 32, INTERNET EXPLORER 10, SAFARI 17","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-04-29","2016-12-28","2016-12-20","2016-11-11","2016-10-21"]},"Gregory Santos":{"sessionsCount":4,"totalTime":"192 min.","longestSession":"85 min.","browsers":"CHROME 20, CHROME 35, FIREFOX 47, SAFARI 49","usedIE":false,"alwaysUsedChrome":false,"dates":["2018-09-21","2018-02-02","2017-05-22","2016-11-25"]}}}' + "\n" | ||
| assert_equal expected_result, File.read('result.json') | ||
| File.open('result.json', 'w') do |file| | ||
| file.write(report.to_json) | ||
| file.write("\n") | ||
| end | ||
| end | ||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,15 @@ | ||
| require 'minitest/autorun' | ||
| require './task-1' | ||
|
|
||
| class Task1Test < Minitest::Test | ||
| def setup | ||
| File.write('result.json', '') | ||
| @reference_content = File.read('reference.json') | ||
| @test_file_name = 'data.txt' | ||
| end | ||
|
|
||
| def test_result | ||
| work(@test_file_name) | ||
| assert_equal @reference_content, File.read('result.json') | ||
| end | ||
| end |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
То есть время увеличилось?
С
3.75cдо4.11?There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Да, после рефакторинга я его отыграл